아이템 유사도 기반 평점 예측
가정: 유사한 영화에는 유사한 평점을 부여할 것이다.
아이템간 유사도를 기준으로 평점에 가중치를 부여하여 평점을 예측한다.
컨텐츠 기반 유사도 측정
두 아이템간 유사도를 어떻게 정량화 할 것인가?
CBF에서는 유사도를 정량화 하기 위해서 컨텐츠 자체가 가진 특성을 이용한다.
뉴스: 제목, 기사내용
영화: 장르, 감독, 출연자, 줄거리
상품: 카테고리, 가격, 상품 이미지, 상품 설명
집합 유사도
벡터 공간으로 확대한다.
- 원소에 해당하는 차원을 상정하면 집합은 쉡게 벡터로 표현 가능하다
- 이진 벡터는 집합을 표현할 수 있다
- 각 원소의 가중치를 달리 적용하는 것이 수월해진다.
유사도 계산을 위한 기초 수학 지식
Vector Space Model
Vector Distance, Similarity
Bag of Words Representation & TF-IDF
Vector Space Model
Vector 연산
- Transpose
- 덧셈
- 스칼라 곱셉
- 내적
- Norm
Distance, Similarity
유클리디안 거리
d(x,y)
X와 Y 사이의 거리를 나타낸다.
코사인 유사도
sim(x,y) = cos(theta)
오직 각도만 해당한다.
피어슨 유사도
Bag of Word Representation
단어의 갯수가 얼마나 출현했는가
TF-IDF(Term Frequency- Inverse Document Frequency)
이 단어가 얼마나 중요한지를 계산 문서 전체 집합에서 얼마나 이 단어가 중요한지 척도 계산
TF
- 단순 빈도
- 불린 빈도
- 로그 스케일 빈도
- 증가 빈도
IDF
- 희귀한 용어를
- 드물게 나오는 용어에 가중치 부여
TF-IDF 예시
아이템 유사도: example
아이템 번호 36, 52번과의 유사도를 TF-IDF 값을 이용하여 유사도 측정
'추천시스템(RS)' 카테고리의 다른 글
추천 시스템 종류와 한계 (0) | 2022.07.12 |
---|---|
추천 시스템이란? (0) | 2022.07.12 |
MovieLens Dataset (0) | 2022.07.11 |
추천시스템 고려사항 (0) | 2022.07.11 |
추천시스템 성능 평가 (0) | 2022.07.11 |