RMSE
평가를 안할 수 없으니, 정량적인 평가를 해보자
Root Mean Square Error
평균 제곱근 편차
실제 값과 모델의 예측 값의 차이를 하나의 숫자로 나타낸다
예측 대상 값에 영향을 받는다 (Scale-dependent)
평점 등 prediction problem의 추천 성능을 평가할 때 사용하는 지표
제곱하여 더 큰 오차를 만든다. 제곱근으로 원래 scale의 숫자로 돌아감
RMSE는 낮을 수록 추천 알고리즘이 성능이 좋다고 평가 가능
성능이 좋다고 해서 꼭 좋은 추천은 아니다.
잔차의 제곱을 산술평균한 값의 제곱근 = 표준편차 = RMSE
이러한 극단적인 예가 있기 때문에 RMSE가 작다고 무조건 좋은 건 아니다.
NDCG
Normalized Discounted Cumulative Gain(NDCG)
랭킹 추천에 많이 사용되는 평가 지표
기존 정보 검색에서 많이 사용했던 지표
Top-N 랭킹 리스트를 만들고 더 관심있거나 관련성 높은 아이템 포함 여불ㄹ 평가
순위에 가중치를 주고 단순한 랭킹이 아닌 데이터의 성향을 반영하기 위한 평가 지표
MAP, TOP K Precision/Recall 등 평가 방법 보안
- 추천 또는 정보 검색에서 특정 아이템에 biased 된 경우
- 이미 유명하고 잘 알려진 인기 있는 아이템 또는 한 명의 사용자에 의해서 만들어진 랭킹 등 문제
NDCG 수식
가장 이상적인 랭킹과 현재 점수를 활용한 랭킹사이의 점수를 cumulative하게 비교
1에 가까울수록 좋은 랭킹
log2로 normalization하여 순위가 낮을 수록 가중치를 감소
검색엔진, 영상,음악 등 컨텐츠 랭킹 추천에서 주요 평가지표로 활용
1번의 랭킹 함수가 NDCG1로 2번 함수보다 NDCG 정확도가 높다(1일수록 좋음)
Other 평가 지표
1. Precision @ K
- Top-K 결과로 Precision 계산
- 관련 여부를 0 또는 1로 평가
- 예를 들어 1 0 1 1 0 0 1 일 때, Top-3는 2/3. Top-5 = 3/5
2. Mean Average Precision (MAP)
- 추천 랭킹 또는 검색 결과에 대한 평균 precision의 평균 값 계산
- Precision@K (K1, K2, K3 ,,, Kr) -> 전체 Precision@K에 대한 평균 값
3. Precision/Recall, AUC
- 정밀도, 재현율
- 분류 문제의 정확도를 검증하고자 할 때 주로 사용되는 평가 지표
'추천시스템(RS)' 카테고리의 다른 글
추천 시스템 종류와 한계 (0) | 2022.07.12 |
---|---|
추천 시스템이란? (0) | 2022.07.12 |
CBF 기반 예측 (0) | 2022.07.11 |
MovieLens Dataset (0) | 2022.07.11 |
추천시스템 고려사항 (0) | 2022.07.11 |