XGBoost 기초 설명

Machine Learning

with_AI 2022. 5. 25. 12:06

실제 학습이 빠르게 학습되고, 대중적으로 많이 쓰인다. 추후 LGBM 모델에 많은 영향을 주었다.

Boosting model은 Bagging 방식이 만들어지는 원리가 전체 성능을 향상하는데 직접적인 연관이 없는 것을 보완한 모델
순차적 모델
첫번째로 만든 DT가 잘못 분류한 친구들을 그 다음 DT가 보완하는 방식으로 순차적으로 Tree를 생성
다음 DT는 이전의 DT가 잘못 분류한 데이터들에 가중치를 주는 것으로 DT가 뽑을데이터의 샘플링을 조절한다.
그리고 그 DT를 다 모아서 앙상블 한다.
Gradient descent algorithm을 boosting model에 도입하여, 다음 DT가 이전 DT와 합쳐져서 더 적은 loss를 가지게 되는 방향으로 DT를 만드는 방법을 Gradient Boosting model이라고 한다.

하지만 Gradient Boosting model은 모델 학습 시간이 너무나 많이 걸렸다. 이를 해결한 방식이 XGBOOST 모델이다.

Gradient Boosting model + System Optimization
tree의 best split point를 찾을때 feature를 정렬하는게 가장 큰 cost를 소모
정렬하는 비용을 block단위로 잘라서 업데이트, GBM과 거의 유사한 성능을 내는 방식을 제안
훨씬 더 빠르게 정렬한 내용들을 사용할 수 있게 시스템 최적화를 한다.
GPU Acceleration, Cache awareness, I/O performance를 개선하여 훨씬 더 빠르게 학습이 가능한 방식을 제안

나이브베이즈 (Naive_bayes) 분류 모델 (0)	2022.05.27
LightGBM에 대하여 (0)	2022.05.25
Lasso 와 Ridge 회귀 (regression) (0)	2022.05.25
선형회귀와 LGBM 실습 (0)	2022.05.17
선형회귀 (Linear Regression)와 성능평가 지표 (0)	2022.05.16

매일코딩

파이썬, 자기소개, 코테준비, json, 코랩, db, 이코테, NoSQL, 합격꿀팁, openup, 문법, 코테, mongoDB, 코테문법, 나동빈, 오픈소스컨트리뷰션아카데미, 파이썬코테, 필수문법, Colab, 실전문법,

매일코딩