ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [주간학습 정리] Week 8
    Naver AI Tech 2024. 10. 11. 18:29

     

    3줄 요약
    가설을 세우자
    검증을 하자
    새로운 가설을 세우자

     

    이번 프로젝트는 '수도권 아파트 전세가 예측 모델'이다

    기본적으로 직관적이고 이해가 쉬운 데이터를 사용하게 되어 덜 머리가 아픈 프로젝트인것 같다

    나의 이번 플젝 목표는 '가설 수립 - 검증'의 파이프라인을 유지하면서 개발을 하는것이다

    그래서 금주에는 EDA에 집중을 하였고, 여러(난잡한) 가설(아이디어)를 새우고 확인하는 과정을 거쳤고 거치는 중이다.

     

    아래는 떠오른 가설 중 일부이다(정리 No)

    • 위도, 경도로 거리 계산하기(학교, 공원, 지하철)
    • 같은 위치(위도, 경도)의 부동산의 경우, 가격이 같은까? 다를까?
      • 층수, 면적의 영향?
    • 지도로 가격을 시각화해서 보면 무언가 보이지 않을까?
      • 강남, 강북 가격?!
      • 동서남북
    • 큰 공원 근처의 부동산은 비싸지 않을까?
    • 가설: 아파트 가격이 비싸면 아파트 개수가 증가하지 않을까?
      • 아파트 개수를 feature로 사용하는데 shift를 사용해서 몇년전꺼를 사용
      • 위치(위도, 경도) ⇒ 위치별 거래된 아파트 수 ⇒ 많으면 좋은 아파트? 거래가 많은 아파트? ⇒ 회수 = feature 사용 가능??
    • 특정 계절에 사람들이 이사를 많이하고 그러면 가격에 영향이 있지 않을까?
      • 계약년월, 계약일을 통해서 계절 또는 분기, 반기를 feature로 사용
    • 강남역과의 거리
      • 강의에서 나오는 방법!
      • 참고로 주어진 지역정보 이외에는 사용하면 않됨(슬랙 참고)
    • 지리적 시각화를 통한 패턴 파악
    • 시계열 분석을 통한 전세가 트랜드 파악
    • 지하철, 학교, 공원과의 거리 계산
      • 아파트와 가까울수록 가격이 비싸지 않을까?
    • 지역별 평균 전세가 등 집계 변수 생성
    • 계절성을 반영한 변수 생성(년월일 데이터 → [상반기, 하반기], [1분기, 2분기, 3분기, 4분기], [월 초, 월 중, 월 말] 등 )
    • 아파트 면적과 가격의 관계
      • 선형적으로 증가 예상함
    • 아파트 건축년도와 가격의 관계
      • 최근 지어진 아파트의 가격이 더 비싸지 않을까?
    • 금리 변동에 따른 지연 효과를 반영한 변수 생성
    • 예측 결과의 지도 시각화 
    • 전세가격에 이상치는 없을까? 너무 싸거나 너무 비싼 거래!
      • 잘못 기록된 데이터
      • 불법 또는 잘못 거래된 데이터
    • 근처에 있는 학교(초,중,고)의 개수와 가격의 상관관계
      • 학교가 모여있는 곳 근처 아파트는 집값이 높지 않을까?
    • 연도별 평균 실거래가의 트랜드
      • 24년의 경우 23년 평균 실거래가를 feature로 사용할 수 있지 않을까?
    • 평수와 실거래가를 이용해서 평당 실거래가를 산출
      • 평당 가격 = 실거래가 / 평수
    • 전세가 변동 추이 시각화
      • 월별, 계절별, 연도별
    • 아파트별 거래 횟수 분석
      • 가설: 거래가 많은 아파트는 가격에 긍정 또는 부정적인 영향이 있을것이다
    • 가설: 큰(고층) 아파트는 비싼 아파트이지 않을까?
      • 실제 아파트의 정보를 알수는 없다.
      • 단, 같은 위치(위도, 경도)의 아파트 중 가장 높은 거래된 아파트 층수를 이용하면 대략적인 아파트 층수를 짐작할 수 있지 않을까?


    EDA 아이디어 정리

    1. 아파트와 기반시설(지하철, 학교, 공원) 과의 거리(위도, 경도)를 이용한 데이터 분석
    2. 근처 기반시설(지하철, 학교, 공원)의 개수를 이용한 데이터 분석
    3. 아파트 정보(면적, 계약년월, 계약일, 계약 유형, 층수, 건축 연도, 건물의 나이)을 이용한 데이터 분석
      1. 계절성을 반영한 변수 생성(년월일 데이터 → [상반기, 하반기], [1분기, 2분기, 3분기, 4분기], [월 초, 월 중, 월 말] 등 )
      2. 같은 위치(위도, 경도), 다른 층수의 아파트 실거래 확인
    4. 금리(interest rate)를 이용한 데이터 분석
    5. 지도에 가격을 시각화하기
    6. 이상치 탐지

    Feature Engineering

    • 연도별 평균 실거래가
    • 평당 실거래가 = 실거래가 / 평균
    • 층수를 카테고리화(저층, 중층, 고층)


    다른 사람 아이디어

    • 공원이 800m 이내에서는 아파트 가격 상승, 초과의 경우 멀수록 가격 상승
    • 교통시설은 가까울수록 아파트 가격이 상승
    • 초등학교 시설은 가까울수록 아파트 가격 상승
    • geopy 라이브러리를 이용해서 거리 계산(위도 경도 사용)
    • 특정 범위 안에 시설의 위치 및 개수 산출
    • 특정 시기(봄, 가을)에 수요가 증가하여 가격 상승
    • 금리와 계약 유형간의 상관관계
      • 금리가 높은 시기에는 기존 계약을 갱신, 금리가 낮으면 신규 계약 증가
    • 위도, 경도를 이용해서 구/동 으로 변환
    • 건물의 나이를 통해 노후화 정도에 따른 전세가 변화 확인 가능
    • 금리 이용
      • 계약 시점 3개월 또는 6개월 이전의 금리 사용 (lag)
    • 일정 반경 이내 지하철역의 개수를 특징으로 사용
    • KNN을 이용한 feature engineering
      • 클래스를 만들어서 feature로 사용
      • input: train.csv (가격 제외)
      • output:
        • 예를들어 공원의 개수, 유무 등
        • K(거리) 임의로 정해야함
      • 더 자세한 고민이 필요함!
    • train 데이터가 많음
      • 너무 과거의 데이터가 않좋은 영향이 있을 수 있지 않을까?
      • 23년 데이터로만 24년꺼를 예측?

     

    이 여러 가설 중 일부는 작업이 완료됐고 일부는 작업중이다

    그리고 작업을 하면서 새로운 가설들도 계속 생겨나고 있다

    이런 작업은 혼자 했으면 전체에 5%도 못했을것 같지만 팀원들과 많은 의견을 나누면서 진행한 결과 빠르게 진행할수 있었다

     

     

     

     

     

    'Naver AI Tech' 카테고리의 다른 글

    [주간학습 정리] Week10  (0) 2024.10.25
    [주간학습 정리] Week 9  (1) 2024.10.18
    [주간학습 정리] Week 7  (1) 2024.09.27
    [주간학습 정리] Week 6  (2) 2024.09.13
    [주간학습 정리] Week 5  (1) 2024.09.06

    댓글

© 2019 All rights reserved.