추천시스템(RS)

CBF 기반 예측

with_AI 2022. 7. 11. 18:40

아이템 유사도 기반 평점 예측

 

가정: 유사한 영화에는 유사한 평점을 부여할 것이다.

 

아이템간 유사도를 기준으로 평점에 가중치를 부여하여 평점을 예측한다.

컨텐츠 기반 유사도 측정

두 아이템간 유사도를 어떻게 정량화 할 것인가?

CBF에서는 유사도를 정량화 하기 위해서 컨텐츠 자체가 가진 특성을 이용한다.

 

뉴스: 제목, 기사내용

영화: 장르, 감독, 출연자, 줄거리

상품: 카테고리, 가격, 상품 이미지, 상품 설명

 

 

집합 유사도

 

벡터 공간으로 확대한다.

- 원소에 해당하는 차원을 상정하면 집합은 쉡게 벡터로 표현 가능하다

- 이진 벡터는 집합을 표현할 수 있다

- 각 원소의 가중치를 달리 적용하는 것이 수월해진다.

 

유사도 계산을 위한 기초 수학 지식

Vector Space Model

Vector Distance, Similarity

Bag of Words Representation & TF-IDF

 

 

Vector Space Model

 

Vector 연산

- Transpose

- 덧셈

- 스칼라 곱셉

- 내적

- Norm

 

Distance, Similarity

유클리디안 거리

d(x,y)

X와 Y 사이의 거리를 나타낸다.

 

코사인 유사도

sim(x,y) = cos(theta)

오직 각도만 해당한다.

 

피어슨 유사도

 

Bag of Word Representation

단어의 갯수가 얼마나 출현했는가

 

TF-IDF(Term Frequency- Inverse Document Frequency)

이 단어가 얼마나 중요한지를 계산 문서 전체 집합에서 얼마나 이 단어가 중요한지 척도 계산

 

TF

- 단순 빈도

- 불린 빈도

- 로그 스케일 빈도

- 증가 빈도

 

IDF

- 희귀한 용어를 

- 드물게 나오는 용어에 가중치 부여

 

TF-IDF 예시

 

아이템 유사도: example

아이템 번호 36, 52번과의 유사도를 TF-IDF 값을 이용하여 유사도 측정

 

'추천시스템(RS)' 카테고리의 다른 글

추천 시스템 종류와 한계  (0) 2022.07.12
추천 시스템이란?  (0) 2022.07.12
MovieLens Dataset  (0) 2022.07.11
추천시스템 고려사항  (0) 2022.07.11
추천시스템 성능 평가  (0) 2022.07.11