Machine Learning

선형회귀와 LGBM 실습

with_AI 2022. 5. 17. 02:56

캘리포니아 집값 데이터를 가지고 실습을 진행해보자

X에는 feature들,

y에는 target을 가져온다.

 

두 row 갯수가 같은지 꼭 확인해 봐야 한다.

 

 

데이터 전처리

 

1. 결측치 확인

2. dtype이 object인 column 있는지 확인 -> categorical 특징 확인

3. target distribution -> 히스토 그램으로 확인

 

 

5이상인 값들을 5로 설정했기 때문에 저렇게 분포가 나옴

 

Train-test Split

트테트테 해서 return 값을 꼭 외우자.

 

random_state = 42 -> 42 온 우주를 이해하는 42, 시드값 고정, 재현성을 위해서 설정

 

 

Training (Fit)

 

 

선형회귀 모델과, Light GBM 모델을 만들어줍니다.

그리고 학습을 진행합니다.

 

 

Evaluation

 

평가지표는 MSE, R2를 써서 진행한다.

 

X_train의 정확도를 먼저 측정합니다.

 

실제값, 예측값을 파라미터로 넣어서 MSE, R2의 값을 얻는다.

 

 

Prediction

 

LightGBM모델이 선형회귀 모델보다 MSE 값도 적게 나오고 R2 도 압도적으로 잘 나오는 것을 알 수 있다.

 

coef와 intercept를 통해서 선형 회귀의 기울기와 절편을 얻을 수 있다.