추천시스템
⊙ 필요성
- Few popular Items → Long Tail Phenomenon
- 과거에는 조회수 급상승 영상만 추천해주면 됐지만 요즘은 사용자 취향에 맞는 영상을 추천해줘야 함
1. 유저 관련 정보
- 유저 프로파일링
- 식별자(User ID, Device ID, browser cookie)
- 데모그래픽 정보(성별, 연령, 지역, 관심사)
- 유저 행동정보(페이지 방문 기록, 아이템 평가, 구매 기록 등 피드백 내역)
2. 아이템 관련 정보
- 아이템 ID
- 아이템 고유 정보: 영화 장르, 출연진 / 상품 카테고리, 브랜드 / 음악 아티스트, 장르
3. 유저-아이템 상호작용 정보
- Explicit Feedback : 아이템에 대한 유저의 직접적인 평가
- Implicit Feedback : 유저가 아이템을 클릭, 구매, 시청할 때 남는 로그
추천시스템의 평가 지표
⊙ 추천시스템 문제
- 랭킹(Ranking) : 유저에게 아이템 Top K개를 추천
- 예측(Prediction) : 유저가 아이템을 가질 선호도를 평점/클릭확률/구매확률 등으로 정확하게 예측
⊙ 성능 평가
- 비즈니스/서비스 관점 : 매출, PageView 증가. CTR 상승
- 품질 관점 : 연관성, 다양성, 새로움, 참신함
⊙ Offline Test
랭킹 문제 :Precision@K, Recall@K, MAP@K, NDCG@K, Hit Rate
예측 문제: RMSE, MAE
⊙ Online A/B Test
- Offline Test에서 검증된 가설이나 모델을 이용해 실제 추천 결과를 서빙
- 대조군/실험군의 환경을 최대한 동일하게 하기 위해 '동시'에 성능을 평가
인기도 기반 추천
⊙ 인기 있다?
- Most Popular : Hacker News Formula. Reddit Formula.
- Highly Rated : Steam Rating Formula.
연관 분석
⊙ 연관 규칙 분석
- 하나의 상품이 등장했을 때 다른 상품이 같이 등장하는 규칙을 찾는 것
- 빈발 집합(Frequent Itemset) : minimum support 값 이상의 itemset
- 연관 규칙 척도
1) support
2) confidence
3) lift
⊙ 연관 규칙 탐색
- support, confidence가 특정값 이상이 되도록 연관 규칙을 찾는다.
- Brute-force approach : 많은 계산량이 필요
→ 가능한 후보 Itemset 개수를 줄이기 / 탐색하는 transaction 숫자 줄이기 / 탐색 횟수 줄이기
TF-IDF
Content-Based Recommendation : 유저가 과거에 선호한 아이템과 비슷한 아이템을 추천
- 장점: 다른 유저의 데이터가 필요 없음. 추천의 이유 설명 가능. 새로운 아이템과 인기도 낮은 아이템 추천 가능
- 단점: 한 분야의 추천 결과만 나올 수 있음. 다른 유저의 데이터 사용 불가.
TF-IDF(Term Frequency - Inverse Document Frequency)
- TF : 단어 w가 문서 d에 많이 등장하면서
- IDF : 단어 w가 전체 문서 D에서는 적게 등장하는 단어일수록
- 단어 w가 문서 d에서 갖는 중요성은 커지고 따라서 TF-IDF 값은 커짐
User Profile 기반 추천/Rating 예측
'네이버 부스트캠프 AI Tech > Recommendation System' 카테고리의 다른 글
[부스트캠프 AI Tech] Recommendation System with DL (0) | 2022.03.11 |
---|---|
[부스트캠프 AI Tech] Item2Vec and ANN (0) | 2022.03.11 |
[부스트캠프 AI Tech] Collaborative Filtering (0) | 2022.03.11 |
댓글