캘리포니아 집값 데이터를 가지고 실습을 진행해보자
X에는 feature들,
y에는 target을 가져온다.
두 row 갯수가 같은지 꼭 확인해 봐야 한다.
데이터 전처리
1. 결측치 확인
2. dtype이 object인 column 있는지 확인 -> categorical 특징 확인
3. target distribution -> 히스토 그램으로 확인
5이상인 값들을 5로 설정했기 때문에 저렇게 분포가 나옴
Train-test Split
트테트테 해서 return 값을 꼭 외우자.
random_state = 42 -> 42 온 우주를 이해하는 42, 시드값 고정, 재현성을 위해서 설정
Training (Fit)
선형회귀 모델과, Light GBM 모델을 만들어줍니다.
그리고 학습을 진행합니다.
Evaluation
평가지표는 MSE, R2를 써서 진행한다.
X_train의 정확도를 먼저 측정합니다.
실제값, 예측값을 파라미터로 넣어서 MSE, R2의 값을 얻는다.
Prediction
LightGBM모델이 선형회귀 모델보다 MSE 값도 적게 나오고 R2 도 압도적으로 잘 나오는 것을 알 수 있다.
coef와 intercept를 통해서 선형 회귀의 기울기와 절편을 얻을 수 있다.
'Machine Learning' 카테고리의 다른 글
나이브베이즈 (Naive_bayes) 분류 모델 (0) | 2022.05.27 |
---|---|
LightGBM에 대하여 (0) | 2022.05.25 |
XGBoost 기초 설명 (0) | 2022.05.25 |
Lasso 와 Ridge 회귀 (regression) (0) | 2022.05.25 |
선형회귀 (Linear Regression)와 성능평가 지표 (0) | 2022.05.16 |