본문 바로가기
카테고리 없음

추천시스템 입문02 - 컨텐츠 기반 모델 (유사도 함수, TF-IDF) | T 아카데미

by 오늘의개발부 2021. 3. 28.
반응형

2강 [토크ON세미나] 추천시스템 분석 입문하기 2강 - 컨텐츠 기반 모델 (유사도 함수, TF-IDF) | T아카데미 https://www.youtube.com/watch?v=g2-z0saMteA

컨텐츠 기반 추천 시스템

정의

사용자가 이전에 구매한 상품 중에서 좋아하는 상품들과 유사한 상품들을 추천하는 방법

Represented Items

items을 벡터 형태로 표현, 도메인에 따라 다른 방법이 적용.

text, image 등을 벡터화함.

벡터1부터 N까지 자신과 유사한 벡터를 추출.

유사도 계산 방법론

유사도 함수

유사도 계산 함수는 굉장히 많다. 그리고 유사도 함수를 어떤 것을 적용하느냐에 따라 결과가 다르게 나올 수 있다.

유클리디안 유사도

거리를 확인하는 간단한 계산

백터의 크기가 클 때, 유리함.

 

코사인 유사도

각도를 통해 경향성을 확인

실제로 많이 쓰는 유사도 계산 방법

 

거리를 측정하기 위한 매트릭.

유클리디안 유사도 vs 코사인 유사도 (비교)

 

유클리디안 유사도는 거리를 확인하는 반면, 코사인유사도는 경향성(각도)를 중요하게 판단하여 다른 결과가 나올 수 있다.

피어슨 유사도

분산을 통해 유사도를 계산

상관관계 분석시 많이 사용하는 알고리즘

 

자카드 유사도

합집합, 교집합이 얼마나 되는지를 확인하여 계산

 

Scikit-learn 패키지에도 이외의 다양한 유사도 계산 알고리즘이 많음.

강사 경험

고객 집단, 도메인에 따라 다양한 유사도 함수를 적절히 분배하여 사용해야 한다.

추천 시스템 모델을 10가지 만들고, 정확도가 높아지는 방법을 찾음.

구매가 적은 사람에게 적용하는 모델, 구매가 많은 사람에게 적용하는 모델을 다르게 하기도 했음.

벡터라이즈 방법론

TF-IDF

자연어처리 알고리즘

단어빈도(TF), 역문서빈도(DF), 가중치(IDF)를 통해 계산.

다른 문서에서는 등장하지 않지만 특정 문서에서만 자주 등장하는 단어를 찾아 가중치 계산.

조사와 같은 지나치게 자주 등장하는 단어에 대해선 IDF(d,t)를 적용하여 페널티를 줌.

TF(d,t)

특정문서 d에서의 특정 단어 t의 등장횟수

DF(t)

특정 단어 t가 등장한 문서의 수

IDF(d,t)

DF(t)에 반비례하는 수

장점

직관적인 해석이 가능함

단점

대규모 말뭉치를 다룰 때 메모리 문제 발생

  • 높은 차원을 가짐
  • 매우 sparse한 형태의 데이터.

실습.

https://www.kaggle.com/chocozzz/00-tf-idf-1

https://www.kaggle.com/chocozzz/00-tf-idf-2

반응형