scikit-learn
-
[scikit-learn] Iris 데이터를 이용한 머신러닝_KmeansAI 2020. 2. 25. 15:49
비지도학습이란 ? 지도학습과는 다르게 데이터에 대한 정답, 즉 라벨을 사용하지 않고 모델을 만들 수 있다. k-평균 군집화(K-means Clustering) ? 주어진 데이터를 k개의 클러스터로 묶는 알고리즘 각 클러스터와 거리 차이의 분산을 최소화하는 방식으로 동작한다. k는 클러스터의 중심 수를 의미한다. Iris 데이터에 관한 전처리는 미리 되어 있다는 가정하에 사이킷런을 이용한 군집화를 진행한다. 사이킷런 라이브러리의 k-평균 군집화 함수 불러오기 from sklearn.cluster import KMeans k 값을 의미하는 군집의 개수를 설정하기 k_means = KMeans(n_clusters=3) n_clusters는 k값을 의미하는 것으로 군집의 개수를 뜻한다. train 데이터를 이용..
-
[scikit-learn] Iris 데이터를 이용한 머신러닝_KNNAI 2020. 2. 20. 23:47
scikit-learn(사이킷런) 사이킷런이란? 파이썬을 이용한 머신러닝 라이브러리 중 하나로, 분류, 회귀, 군집화 등 다양한 머신러닝 알고리즘 함수를 제공한다. 설치 pip install scikit-learn 설치 확인 import sklearn sklearn.__version__ Iris 데이터 사이킷런에는 내장된 데이터가 몇가지 있다. 그중 하나로 Iris(붓꽃)에 관한 데이터가 있다. 이를 이용해서 사이킷런의 사용법에 대해 공부를 해보자. Iris 데이터 불러오기 from sklearn.datasets import load_iris Iris 데이터 확인해보기 Iris 데이터를 변수에 할당한 후 데이터의 key와 value를 확인해보기 iris_dataset = load_iris() print(..
-
Scikit-learn의 train_test_split() 사용법AI 2019. 8. 21. 14:47
train_test_split() 다양한 기계학습과 데이터 분석 툴을 제공하는 scikit-learn 패키지 중 model_selection에는 데이터 분할을 위한 train_test_split 함수가 있다. train_test_split 함수는 전체 데이터셋 배열을 받아서 랜덤하게 test/train 데이터 셋으로 분리해주는 함수이다. 클래스 값을 포함하여 하나의 데이터로 받는 경우 df_train, df_test = train_test_split(df, test_size=0.4, random_state=0) 클래스를 개별의 배열로 받는 경우 train_x, test_x, train_y, test_y = train_test_split(X, Y, test_size = 0.5) from sklearn.mo..