추천시스템(RS)

RMSE, NDCG 추천 시스템 평가 지표

with_AI 2022. 7. 27. 15:47

RMSE

 

평가를 안할 수 없으니, 정량적인 평가를 해보자

 

Root Mean Square Error

평균 제곱근 편차

실제 값과 모델의 예측 값의 차이를 하나의 숫자로 나타낸다

예측 대상 값에 영향을 받는다 (Scale-dependent)

평점 등 prediction problem의 추천 성능을 평가할 때 사용하는 지표

제곱하여 더 큰 오차를 만든다. 제곱근으로 원래 scale의 숫자로 돌아감

RMSE는 낮을 수록 추천 알고리즘이 성능이 좋다고 평가 가능

성능이 좋다고 해서 꼭 좋은 추천은 아니다.

잔차의 제곱을 산술평균한 값의 제곱근 = 표준편차 = RMSE

 

이러한 극단적인 예가 있기 때문에 RMSE가 작다고 무조건 좋은 건 아니다.

 


NDCG

 

Normalized Discounted Cumulative Gain(NDCG)

 

랭킹 추천에 많이 사용되는 평가 지표

기존 정보 검색에서 많이 사용했던 지표

Top-N 랭킹 리스트를 만들고 더 관심있거나 관련성 높은 아이템 포함 여불ㄹ 평가

순위에 가중치를 주고 단순한 랭킹이 아닌 데이터의 성향을 반영하기 위한 평가 지표

MAP, TOP K Precision/Recall 등 평가 방법 보안

- 추천 또는 정보 검색에서 특정 아이템에 biased 된 경우

- 이미 유명하고 잘 알려진 인기 있는 아이템 또는 한 명의 사용자에 의해서 만들어진 랭킹 등 문제

 

NDCG 수식

 

가장 이상적인 랭킹과 현재 점수를 활용한 랭킹사이의 점수를 cumulative하게 비교

1에 가까울수록 좋은 랭킹

log2로 normalization하여 순위가 낮을 수록 가중치를 감소

검색엔진, 영상,음악 등 컨텐츠 랭킹 추천에서 주요 평가지표로 활용

 

1번의 랭킹 함수가 NDCG1로 2번 함수보다 NDCG 정확도가 높다(1일수록 좋음)

 

Other 평가 지표

 

1. Precision @ K

- Top-K 결과로 Precision 계산

- 관련 여부를  0 또는 1로 평가

- 예를 들어 1 0 1 1 0 0 1 일 때, Top-3는 2/3. Top-5 = 3/5

 

2. Mean Average Precision (MAP)

- 추천 랭킹 또는 검색 결과에 대한 평균 precision의 평균 값 계산

- Precision@K (K1, K2, K3 ,,, Kr) -> 전체 Precision@K에 대한 평균 값

 

3. Precision/Recall, AUC

- 정밀도, 재현율

- 분류 문제의 정확도를 검증하고자 할 때 주로 사용되는 평가 지표 

 

 

 

'추천시스템(RS)' 카테고리의 다른 글

추천 시스템 종류와 한계  (0) 2022.07.12
추천 시스템이란?  (0) 2022.07.12
CBF 기반 예측  (0) 2022.07.11
MovieLens Dataset  (0) 2022.07.11
추천시스템 고려사항  (0) 2022.07.11