본문 바로가기
네이버 부스트캠프 AI Tech/Recommendation System

[부스트캠프 AI Tech] 추천시스템 Basics

by 중앙백 2022. 3. 11.

추천시스템

 필요성

  • Few popular Items → Long Tail Phenomenon
  • 과거에는 조회수 급상승 영상만 추천해주면 됐지만 요즘은 사용자 취향에 맞는 영상을 추천해줘야 함

1. 유저 관련 정보

  • 유저 프로파일링
  • 식별자(User ID, Device ID, browser cookie)
  • 데모그래픽 정보(성별, 연령, 지역, 관심사)
  • 유저 행동정보(페이지 방문 기록, 아이템 평가, 구매 기록 등 피드백 내역)

2. 아이템 관련 정보

  • 아이템 ID
  • 아이템 고유 정보: 영화 장르, 출연진 / 상품 카테고리, 브랜드 / 음악 아티스트, 장르

3. 유저-아이템 상호작용 정보

  • Explicit Feedback : 아이템에 대한 유저의 직접적인 평가
  • Implicit Feedback : 유저가 아이템을 클릭, 구매, 시청할 때 남는 로그

 

추천시스템의 평가 지표

⊙ 추천시스템 문제

- 랭킹(Ranking) : 유저에게 아이템 Top K개를 추천

- 예측(Prediction) : 유저가 아이템을 가질 선호도를 평점/클릭확률/구매확률 등으로 정확하게 예측

 

⊙ 성능 평가

 - 비즈니스/서비스 관점 : 매출, PageView 증가. CTR 상승

 - 품질 관점 : 연관성, 다양성, 새로움, 참신함

 

⊙ Offline Test

랭킹 문제 :Precision@K, Recall@K, MAP@K, NDCG@K, Hit Rate

예측 문제: RMSE, MAE

 

⊙ Online A/B Test

 - Offline Test에서 검증된 가설이나 모델을 이용해 실제 추천 결과를 서빙

 - 대조군/실험군의 환경을 최대한 동일하게 하기 위해 '동시'에 성능을 평가

 

인기도 기반 추천

⊙ 인기 있다?

 - Most Popular : Hacker News Formula. Reddit Formula.

 - Highly Rated : Steam Rating Formula.

 

 

연관 분석 

⊙ 연관 규칙 분석

 - 하나의 상품이 등장했을 때 다른 상품이 같이 등장하는 규칙을 찾는 것

 - 빈발 집합(Frequent Itemset) : minimum support 값 이상의 itemset

 - 연관 규칙 척도
   1) support
   2) confidence
   3) lift

 

⊙ 연관 규칙 탐색

 - support, confidence가 특정값 이상이 되도록 연관 규칙을 찾는다.

 - Brute-force approach : 많은 계산량이 필요

→ 가능한 후보 Itemset 개수를 줄이기 / 탐색하는 transaction 숫자 줄이기 / 탐색 횟수 줄이기

 

TF-IDF

Content-Based Recommendation : 유저가 과거에 선호한 아이템과 비슷한 아이템을 추천

 - 장점: 다른 유저의 데이터가 필요 없음. 추천의 이유 설명 가능. 새로운 아이템과 인기도 낮은 아이템 추천 가능

 - 단점: 한 분야의 추천 결과만 나올 수 있음. 다른 유저의 데이터 사용 불가.

 

TF-IDF(Term Frequency - Inverse Document Frequency)

 - TF : 단어 w가 문서 d에 많이 등장하면서

 - IDF : 단어 w가 전체 문서 D에서는 적게 등장하는 단어일수록

 - 단어 w가 문서 d에서 갖는 중요성은 커지고 따라서 TF-IDF 값은 커짐

 

User Profile 기반 추천/Rating 예측

댓글