-
[주간학습 정리] Week 8Naver AI Tech 2024. 10. 11. 18:29
3줄 요약
가설을 세우자
검증을 하자
새로운 가설을 세우자이번 프로젝트는 '수도권 아파트 전세가 예측 모델'이다
기본적으로 직관적이고 이해가 쉬운 데이터를 사용하게 되어 덜 머리가 아픈 프로젝트인것 같다
나의 이번 플젝 목표는 '가설 수립 - 검증'의 파이프라인을 유지하면서 개발을 하는것이다
그래서 금주에는 EDA에 집중을 하였고, 여러(
난잡한) 가설(아이디어)를 새우고 확인하는 과정을 거쳤고 거치는 중이다.아래는 떠오른 가설 중 일부이다(정리 No)
- 위도, 경도로 거리 계산하기(학교, 공원, 지하철)
- 같은 위치(위도, 경도)의 부동산의 경우, 가격이 같은까? 다를까?
- 층수, 면적의 영향?
- 지도로 가격을 시각화해서 보면 무언가 보이지 않을까?
- 강남, 강북 가격?!
- 동서남북
- 큰 공원 근처의 부동산은 비싸지 않을까?
- 가설: 아파트 가격이 비싸면 아파트 개수가 증가하지 않을까?
- 아파트 개수를 feature로 사용하는데 shift를 사용해서 몇년전꺼를 사용
- 위치(위도, 경도) ⇒ 위치별 거래된 아파트 수 ⇒ 많으면 좋은 아파트? 거래가 많은 아파트? ⇒ 회수 = feature 사용 가능??
- 특정 계절에 사람들이 이사를 많이하고 그러면 가격에 영향이 있지 않을까?
- 계약년월, 계약일을 통해서 계절 또는 분기, 반기를 feature로 사용
- 강남역과의 거리
- 강의에서 나오는 방법!
- 참고로 주어진 지역정보 이외에는 사용하면 않됨(슬랙 참고)
- 지리적 시각화를 통한 패턴 파악
- 시계열 분석을 통한 전세가 트랜드 파악
- 지하철, 학교, 공원과의 거리 계산
- 아파트와 가까울수록 가격이 비싸지 않을까?
- 지역별 평균 전세가 등 집계 변수 생성
- 계절성을 반영한 변수 생성(년월일 데이터 → [상반기, 하반기], [1분기, 2분기, 3분기, 4분기], [월 초, 월 중, 월 말] 등 )
- 아파트 면적과 가격의 관계
- 선형적으로 증가 예상함
- 아파트 건축년도와 가격의 관계
- 최근 지어진 아파트의 가격이 더 비싸지 않을까?
- 금리 변동에 따른 지연 효과를 반영한 변수 생성
- 예측 결과의 지도 시각화
- 전세가격에 이상치는 없을까? 너무 싸거나 너무 비싼 거래!
- 잘못 기록된 데이터
- 불법 또는 잘못 거래된 데이터
- 근처에 있는 학교(초,중,고)의 개수와 가격의 상관관계
- 학교가 모여있는 곳 근처 아파트는 집값이 높지 않을까?
- 연도별 평균 실거래가의 트랜드
- 24년의 경우 23년 평균 실거래가를 feature로 사용할 수 있지 않을까?
- 평수와 실거래가를 이용해서 평당 실거래가를 산출
- 평당 가격 = 실거래가 / 평수
- 전세가 변동 추이 시각화
- 월별, 계절별, 연도별
- 아파트별 거래 횟수 분석
- 가설: 거래가 많은 아파트는 가격에 긍정 또는 부정적인 영향이 있을것이다
- 가설: 큰(고층) 아파트는 비싼 아파트이지 않을까?
- 실제 아파트의 정보를 알수는 없다.
- 단, 같은 위치(위도, 경도)의 아파트 중 가장 높은 거래된 아파트 층수를 이용하면 대략적인 아파트 층수를 짐작할 수 있지 않을까?
EDA 아이디어 정리- 아파트와 기반시설(지하철, 학교, 공원) 과의 거리(위도, 경도)를 이용한 데이터 분석
- 근처 기반시설(지하철, 학교, 공원)의 개수를 이용한 데이터 분석
- 아파트 정보(면적, 계약년월, 계약일, 계약 유형, 층수, 건축 연도, 건물의 나이)을 이용한 데이터 분석
- 계절성을 반영한 변수 생성(년월일 데이터 → [상반기, 하반기], [1분기, 2분기, 3분기, 4분기], [월 초, 월 중, 월 말] 등 )
- 같은 위치(위도, 경도), 다른 층수의 아파트 실거래 확인
- 금리(interest rate)를 이용한 데이터 분석
- 지도에 가격을 시각화하기
- 이상치 탐지
Feature Engineering
- 연도별 평균 실거래가
- 평당 실거래가 = 실거래가 / 평균
- 층수를 카테고리화(저층, 중층, 고층)
다른 사람 아이디어- 공원이 800m 이내에서는 아파트 가격 상승, 초과의 경우 멀수록 가격 상승
- 교통시설은 가까울수록 아파트 가격이 상승
- 초등학교 시설은 가까울수록 아파트 가격 상승
- geopy 라이브러리를 이용해서 거리 계산(위도 경도 사용)
- 특정 범위 안에 시설의 위치 및 개수 산출
- 특정 시기(봄, 가을)에 수요가 증가하여 가격 상승
- 금리와 계약 유형간의 상관관계
- 금리가 높은 시기에는 기존 계약을 갱신, 금리가 낮으면 신규 계약 증가
- 위도, 경도를 이용해서 구/동 으로 변환
- 건물의 나이를 통해 노후화 정도에 따른 전세가 변화 확인 가능
- 금리 이용
- 계약 시점 3개월 또는 6개월 이전의 금리 사용 (lag)
- 일정 반경 이내 지하철역의 개수를 특징으로 사용
- KNN을 이용한 feature engineering
- 클래스를 만들어서 feature로 사용
- input: train.csv (가격 제외)
- output:
- 예를들어 공원의 개수, 유무 등
- K(거리) 임의로 정해야함
- 더 자세한 고민이 필요함!
- train 데이터가 많음
- 너무 과거의 데이터가 않좋은 영향이 있을 수 있지 않을까?
- 23년 데이터로만 24년꺼를 예측?
이 여러 가설 중 일부는 작업이 완료됐고 일부는 작업중이다
그리고 작업을 하면서 새로운 가설들도 계속 생겨나고 있다
이런 작업은 혼자 했으면 전체에 5%도 못했을것 같지만 팀원들과 많은 의견을 나누면서 진행한 결과 빠르게 진행할수 있었다
'Naver AI Tech' 카테고리의 다른 글
[주간학습 정리] Week10 (0) 2024.10.25 [주간학습 정리] Week 9 (1) 2024.10.18 [주간학습 정리] Week 7 (1) 2024.09.27 [주간학습 정리] Week 6 (2) 2024.09.13 [주간학습 정리] Week 5 (1) 2024.09.06