Naver AI Tech
-
[주간학습 정리] Week10Naver AI Tech 2024. 10. 25. 11:23
팀 프로젝트를 진행하면서 모델 실험 결과를 기록해야 했다한 팀원이 처음에는 구글의 word를 이용해서 해당 내용을 기록 및 공유했다. 이렇게 하니깐 작성하는 사람도 힘들고 공유를 받는 사람도 힘든 상황이 많았다. 심지어는 내용을 적어놓고 나중에 보니깐 제대로 적은게 맞는지 의심을 하게되는 상황도 발생했다. 그래서 이전에 사용해본 경험이 있는 MLflow를 적용해보기로 했다. MLflow: 머신러닝 실험과 모델 관리를 위한 오픈소스머신러닝 라이프사이클을 관리하고, 실험 추적, 모델 패키징, 배포 및 협업을 지원한다. MLflow의 구성요소는 크게 4가지로 tracking, projects, models, model registry로 구성 되어있다.이중 MLflow Tracking은 머신러닝 모델의 학습 과..
-
[주간학습 정리] Week 9Naver AI Tech 2024. 10. 18. 18:35
3줄 요약가설을 하나씩 확인해보자서울은 얼마나 클까?지구는 둥굴다 프로젝트의 가설 중 하나로아파트들의 위치(위도,경도)의 중앙(median)은 수도권의 중심을 의미한다.수도권 중심의 아파트 전세가는 외곽의 아파트보다 비싸다. 라는 가설 아래서 가설을 검증하고 이를 이용해서 feature를 생성하는 작업을 진행했다.아파트의 위도, 경도, 전세가 데이터를 이용하여 Scatter Plot을 그려보니 해당 가설의 가능성이 더 보였고 실제로 거리 측정 및 feature 생성을 진행하였다. 하버사인(Harversine)아래는 이러한 위도, 경도를 이용한 거리 측정과 관련하여 사용한 하버사인(Harversine)에 대한 내용이다.일반적인 평면에서 두 점(A, B)사이의 거리를 구하는 방법은 피타고라스의 정리를 사용하..
-
[주간학습 정리] Week 8Naver AI Tech 2024. 10. 11. 18:29
3줄 요약가설을 세우자검증을 하자새로운 가설을 세우자 이번 프로젝트는 '수도권 아파트 전세가 예측 모델'이다기본적으로 직관적이고 이해가 쉬운 데이터를 사용하게 되어 덜 머리가 아픈 프로젝트인것 같다나의 이번 플젝 목표는 '가설 수립 - 검증'의 파이프라인을 유지하면서 개발을 하는것이다그래서 금주에는 EDA에 집중을 하였고, 여러(난잡한) 가설(아이디어)를 새우고 확인하는 과정을 거쳤고 거치는 중이다. 아래는 떠오른 가설 중 일부이다(정리 No)위도, 경도로 거리 계산하기(학교, 공원, 지하철)같은 위치(위도, 경도)의 부동산의 경우, 가격이 같은까? 다를까?층수, 면적의 영향?지도로 가격을 시각화해서 보면 무언가 보이지 않을까?강남, 강북 가격?!동서남북큰 공원 근처의 부동산은 비싸지 않을까?가설: 아파..
-
[주간학습 정리] Week 7Naver AI Tech 2024. 9. 27. 18:57
3줄 요약프로젝트를 시작했다협업이 어렵다협업을 배우자 이번주는 프로젝트를 진행하면서 학습한것보다는 경험한게 큰거 같다이번주에는 멘토링 시간에 진행한 KPT 회고를 작성했다 Keep: 잘한것, 유지할 것워라밸 밸런스를 지킨것간단하게라도 해보고 싶은것들을 다 해본것논문과 Perplexity를 이용해서 빠르게 모델 코드 짜기AutoML, 앙상블, 그리드 서치 등 사용 Problem: 아쉬운것, 개선할것계획적이고 체계적으로 프로젝트를 진행하지 않음기승전결 또는 가설-검증-가설-검증 의 과정이 없었음단순히 하나하나(모델, 기능, 라이브러리 등)를 사용함날마자 진행한 내용에 대한 히스토리 기록이 부족함대략적으로 진행한 내용은 기록을 했지만 세부적인 내용 기록을 안함 Try: 다음에 시도할것Github 잘 사용하기..
-
[주간학습 정리] Week 6Naver AI Tech 2024. 9. 13. 18:04
3줄 요약프로젝트를 시작했다프로젝트에 도움되는 지식을 배웠다데이터가 어렵다 리눅스 커맨드 정리 리눅스는 1991년 리누스 토르발스가 개발한 오픈소스 운영체제로 높은 안정성과 보안성, 다양한 배포판 존재, 다중 사용자 및 다중 처리 가능이라는 장점을 가지고 있다. 명령어간단한 설명사용 예시ls디렉토리 내용을 나열ls -l (자세한 목록 표시)cd디렉토리 변경cd /home/user (특정 디렉토리로 이동)echo터미널에 텍스트 출력echo "Hi"pwd현재 작업 디렉토리 경로 출력pwdmkdir새 디렉토리 생성mkdir new_folderrm파일 또는 디렉토리 삭제rm file.txt (파일 삭제)cp파일 또는 디렉토리 복사cp file.txt /path/to/destinationmv파일 또는 디렉토리..
-
[주간학습 정리] Week 5Naver AI Tech 2024. 9. 6. 17:33
강의 내용 중 인상깊었던 'Data Attribution'에 대해서 몇가지 간단하게 내용 작성하였다 Data Attribution모델의 예측에 관하여 어떤 입력 데이터가 얼마나 기여했는지 분석하고 해석하는 과정인공지능의 설명 가능성(Explainable)과 관련있다 Influence function특정 데이터 포인트가 모델이나 추정치에 미치는 영향을 측정하는 도구데이터셋에서 하나의 샘플을 제거하거나 가중치를 변경했을때 모델 파라미터나 예측에 미치는 영향을 측정한다모델의 해석가능성을 높이고 영향력 있는 데이터 포인트를 식별하며 모델 디버깅에 활용된다- 이미지 출처: https://christophm.github.io/interpretable-ml-book/influential.html 추천 시스템에서 i..
-
[주간학습 정리] Week4Naver AI Tech 2024. 8. 30. 16:56
통계에 대해 학습을 했는데기본 개념 및 정의 부터 확실히 짚고 넘어가야 할 거 같아서몇 개의 단어들에 대해서 위키와 구글링을 통해서 찾아서 작성하였다. 키워드 및 정의Random Variable (확률 변수)확률 실험의 결과로 가능한 값들을 가지며, 이러한 값들이 확률 분포에 따라 나타난다.확률공간에서 다른 가측 공간으로 가는 가측함수이다. 시행의 결과에 따라 값이 결정되는 변수를 나타낸다.Distribution (분포)확률 변수의 모든 가능한 값들과 이 값들이 나타날 확률을 나타내는 함수 또는 법칙이다.Probability Distribution(확률 분포)확률변수가 특정한 값을 가질 확률을 나타내는 함수를 의미한다Binomial Distribution (이항 분포)두 가지 가능한 결과(성공과 실패)..
-
[주간학습 정리] Week 3Naver AI Tech 2024. 8. 23. 13:34
이번 주 학습 한 내용 중 인상 깊은 것과 과거에 사용 안 해본 것을 기록하자 1. 데이터 문해력을 기르자데이터 문해력이란 데이터를 읽고 이해하고 이를 바탕으로 분석결과를 전달하는 능력이다.데이터 문해력의 핵심 역량 중 하나는 문제를 잘 정의하고 질문을 잘 하는 것이다.좋은 문제해결 접근방법은 문제를 먼저 정의 한 후 그에 맞는 데이터를 수집하여 문제를 해결하는 것이다.즉, 문제정의와 데이터를 이해하고 분석하는 능력을 기르자![Reference: 데이터 리터러시란 | 정의와 역량, 필요성, 활용 방법과 성공 사례] 2. 다양한 데이터 시각화시각화 그래프(차트)는 매우 다양하다.안써본 도구나 방법 등에 대해 알아보자.이 외에도 다양한 그래프가 있으므로 다양한 시각화 자료를 보고 생각하자. Text vs ..