HeYStRanGeR
article thumbnail

 

(2022.04.08)

기계학습 수업 들으면서 정리하기 10탄

Lecture5_ML 뒷부분 내용 정리

 


 

군집화 clustering

 

- 소속집단의 정보가 없는 상태에서 비슷한 집단으로 묶는 비지도 학습

- 입력 데이터를 통해서 출력값을 예측하는 것보다는 데이터에서의 의미를 파악하고 기준을 만드는 것이 목적이다.

 

분류와 군집화는 데이터를 비슷한 집단으로 묶는다는 공통점이 있지만, 차이점은 명확하다.

 

 

k-means 알고리즘   (sklearn에서 제공하는 cluster 모듈에 존재)

: 데이터를 k개의 그룹으로 나누는 알고리즘이다. 

 

- 장점: 원리가 단순하고 직관적이며, 성능이 좋은 군집화 알고리즘

- 단점: 사전에 군집 cluster 의 개수 k값을 정해야함

 


 

k-NN  vs  k-means

 

1. k-NN

이미 주어진 정보들을 통해 새로운 정보가 어디에 속할지를 알아내는 것이다.

핵심은 가장 가까운 이웃을 찾는 것이다.

몇개의 근접한 이웃을 찾을 지 결정해야한다. 이때 이웃의 수가 바로 k이다.

 

 

2. k-means

k-means 알고리즘은 k-NN 알고리즘과 다르게 정답 레이블이 없다.

데이터를 (몇 묶음) 몇 개의 cluster 로 나눌 것인지 결정해야한다. 이 때 cluster의 수가 바로 k이다.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

728x90
profile

HeYStRanGeR

@HeYStRanGeR

포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!