(2022.04.08)
기계학습 수업 들으면서 정리하기 10탄
Lecture5_ML 뒷부분 내용 정리
군집화 clustering
- 소속집단의 정보가 없는 상태에서 비슷한 집단으로 묶는 비지도 학습
- 입력 데이터를 통해서 출력값을 예측하는 것보다는 데이터에서의 의미를 파악하고 기준을 만드는 것이 목적이다.
분류와 군집화는 데이터를 비슷한 집단으로 묶는다는 공통점이 있지만, 차이점은 명확하다.
k-means 알고리즘 (sklearn에서 제공하는 cluster 모듈에 존재)
: 데이터를 k개의 그룹으로 나누는 알고리즘이다.
- 장점: 원리가 단순하고 직관적이며, 성능이 좋은 군집화 알고리즘
- 단점: 사전에 군집 cluster 의 개수 k값을 정해야함
k-NN vs k-means
1. k-NN
이미 주어진 정보들을 통해 새로운 정보가 어디에 속할지를 알아내는 것이다.
핵심은 가장 가까운 이웃을 찾는 것이다.
몇개의 근접한 이웃을 찾을 지 결정해야한다. 이때 이웃의 수가 바로 k이다.
2. k-means
k-means 알고리즘은 k-NN 알고리즘과 다르게 정답 레이블이 없다.
데이터를 (몇 묶음) 몇 개의 cluster 로 나눌 것인지 결정해야한다. 이 때 cluster의 수가 바로 k이다.
728x90
'Computer Science > Machine Learning' 카테고리의 다른 글
[machine learning] 1. Linear Regression (gradient descent, mini-batch gradient descent, normal equation) (0) | 2023.03.17 |
---|---|
[machine learning] 0. Introduction (0) | 2023.03.17 |
[ML] 지도학습 - 분류(classification), 앙상블(Ensemble) (0) | 2022.04.07 |
[ML] 다변량 회귀분석 실습- 분류용/검증용 데이터, 정규화, 표준화) (0) | 2022.04.02 |
[ML] 선형회귀 실습 - 경사하강법, 정규방정식 (0) | 2022.04.02 |