본문 바로가기
네이버 부스트캠프 AI Tech/Recommendation System

[부스트캠프 AI Tech] Item2Vec and ANN

by 중앙백 2022. 3. 11.

Word2Vec

Embedding : 주어진 데이터를 낮은 차원의 벡터로 표현하는 방법

Sparse Representation & Dense Representation

Word Embedding : 텍스트 분석을 위해 단어를 벡터로 표현. 학습방법-CBOW, Skip-Gram, SGNS

 

Continuous Bag of Words(CVOW)

: 주변의 단어를 가지고 센터에 있는 단어를 예측하는 방법

Skip-Gram

: CBOW와 입력/출력층이 반대로 구성된 모델

Skip-Gram with Negative Sampling(SGNS)

: Negative Sampling을 만들어 모델을 개선

 

Item2Vec

SGNS의 영감을 받아 제작

Word2Vec[문장:단어] = Item2Vec[아이템 리스트:아이템]

 

 

 

ANN

Approximate Nearset Neighbor

Vector space model에서 내가 원하는 query vector와 가장 유사한 vector를 찾는 알고리즘

Brute Force KNN - 시간 소요가 큼 - 근사 해법 필요

→ ANNOY, HNSW, IVF, Product Quantization-Compression

댓글