Machine Learning

선형회귀 (Linear Regression)와 성능평가 지표

with_AI 2022. 5. 16. 23:35

선형회귀

 

이상적인 학습

Ptrain 높고, Ptest 높은 모델

 

과적합

Ptrain 높고, Ptest 낮은 모델

 

과적합을 막기 위해 학습에 규제를 추가 -> 적당한 loss를 올려줌(일반화 시키기 위해)

라소, 릿지 모델이 존재

 

선형회귀, 라소, 릿지 3개 모델은 현업에서 많이 쓰임

polynomical 회귀는 과적합될 확률이 높음

 

 

선형 모델의 성능이 안좋다면?

feature Engineering을 진행 해봐야 한다.

 

통상적으로 LightGBM 회귀를 사용 많이 한다.

 

 

빠르고 성능이 상당히 좋음

가성비가 좋다

회귀 분석, 회귀 task

현업에서 회귀 문제에서 많이 쓰이는 모델이다.

 

결정 트리 -> 랜덤 포레스트 -> GBM -> XGBOOST -> LightGBM -> CatBoost

 

그러면 모든 사람들이 LightGBM을 쓸텐데 어떻게 더 성능을 높이죠?

 

feature engineering

hyper parmeter 튜닝

 

이 두가지로 인하여 개발자의 능력이 좌우 된다.

20개가 넘는 하이퍼 파라미터들...

차이가 엄청나게 많이 난다.

따라서 오픈 소스 라이브러리에게 맡긴다. AutoML, pycaret

 

회귀 모델 평가

 

주어진 데이터로 모델을 학습시키는 것은 지정한 성능 평가 지표를 향상시키는 과정이다.

 

성능 평가 지표의 값은 예측 성능을 기준으로 한다. (정확성)

 

정량적 기준을 설정하고 달성할 때 까지 모델을 학습시키고 성능 개선

MSE로 판단

 

실제 서비스에 적용

 

 

성능평가 지표

 

RMSLE는 scale의 영향을 안받는다, 또한 outlier 이상치에 robust하다. 

log -> 비율로 바뀜, 말도 안되는 이상치 값에 대해서 robust하게 평가해줌

 

 

R^2 Score

MSE / y의 분산 = SSE / SST = R ^ 2

0 ~ 1 의 값을 가진다

음수의 값을 가진거면, baseline보다도 잘 안나온 것.

 

 

 

 

 

'Machine Learning' 카테고리의 다른 글

나이브베이즈 (Naive_bayes) 분류 모델  (0) 2022.05.27
LightGBM에 대하여  (0) 2022.05.25
XGBoost 기초 설명  (0) 2022.05.25
Lasso 와 Ridge 회귀 (regression)  (0) 2022.05.25
선형회귀와 LGBM 실습  (0) 2022.05.17