HeYStRanGeR
article thumbnail
[ML] 다변량 선형 회귀 분석 - 정규화 & 표준화

(2022.04.02) 기계학습 수업들으면서 정리하기 8탄 Lecture4_ML 내용정리-2 다변량 선형회귀 분석을 위해서는 데이터 확보가 매우 중요하다. 캐글(kaggle)이라는 사이트는 다양한 데이터를 가지고 있는데, 여기서 데이터를 가져와 실습을 진행해보았다. y는 기대수명으로 두고, x에 해당하는 데이터를 정리하려고한다. 기대수명과의 상관관계를 파악하여 상관관계가 높은 데이터만 가져오고, 낮은 데이터를 버리도록 한다. 왜냐면, 상관관계가 크지 않는 데이터까지 포함해버리면, 학습이 잘 되지 않거나, 예측의 신뢰도가 떨어질 수 있기 때문이다. 1. 우선, 다변량 데이터의 값이 있는지 없는지를 판별한다. --> isnull() 2. 데이터 값이 없다면, dropna(inplace=True) 를 통해서 ..

728x90