선형회귀
이상적인 학습
Ptrain 높고, Ptest 높은 모델
과적합
Ptrain 높고, Ptest 낮은 모델
과적합을 막기 위해 학습에 규제를 추가 -> 적당한 loss를 올려줌(일반화 시키기 위해)
라소, 릿지 모델이 존재
선형회귀, 라소, 릿지 3개 모델은 현업에서 많이 쓰임
polynomical 회귀는 과적합될 확률이 높음
선형 모델의 성능이 안좋다면?
feature Engineering을 진행 해봐야 한다.
통상적으로 LightGBM 회귀를 사용 많이 한다.
빠르고 성능이 상당히 좋음
가성비가 좋다
회귀 분석, 회귀 task
현업에서 회귀 문제에서 많이 쓰이는 모델이다.
결정 트리 -> 랜덤 포레스트 -> GBM -> XGBOOST -> LightGBM -> CatBoost
그러면 모든 사람들이 LightGBM을 쓸텐데 어떻게 더 성능을 높이죠?
feature engineering
hyper parmeter 튜닝
이 두가지로 인하여 개발자의 능력이 좌우 된다.
20개가 넘는 하이퍼 파라미터들...
차이가 엄청나게 많이 난다.
따라서 오픈 소스 라이브러리에게 맡긴다. AutoML, pycaret
회귀 모델 평가
주어진 데이터로 모델을 학습시키는 것은 지정한 성능 평가 지표를 향상시키는 과정이다.
성능 평가 지표의 값은 예측 성능을 기준으로 한다. (정확성)
정량적 기준을 설정하고 달성할 때 까지 모델을 학습시키고 성능 개선
MSE로 판단
실제 서비스에 적용
성능평가 지표
RMSLE는 scale의 영향을 안받는다, 또한 outlier 이상치에 robust하다.
log -> 비율로 바뀜, 말도 안되는 이상치 값에 대해서 robust하게 평가해줌
R^2 Score
MSE / y의 분산 = SSE / SST = R ^ 2
0 ~ 1 의 값을 가진다
음수의 값을 가진거면, baseline보다도 잘 안나온 것.
'Machine Learning' 카테고리의 다른 글
나이브베이즈 (Naive_bayes) 분류 모델 (0) | 2022.05.27 |
---|---|
LightGBM에 대하여 (0) | 2022.05.25 |
XGBoost 기초 설명 (0) | 2022.05.25 |
Lasso 와 Ridge 회귀 (regression) (0) | 2022.05.25 |
선형회귀와 LGBM 실습 (0) | 2022.05.17 |