티스토리 뷰
반응형
- Dense Passage Retrieval (DPR):
- 쿼리와 문서를 고차원 벡터 공간에 임베딩하는 신경망 기반의 방법입니다.
- 의미적 유사성을 잘 포착하여 전통적인 키워드 기반 방법보다 우수한 성능을 보입니다.
- Contrastive Learning-based Retriever:
- 대조 학습을 사용하여 관련 문서와 비관련 문서를 더 잘 구분하도록 학습합니다.
- SimCSE나 ConDE와 같은 방법들이 이 범주에 속합니다.
- Hybrid Retriever:
- 스파스 검색(예: BM25)과 덴스 검색(예: DPR)을 결합한 방법입니다.
- 두 방식의 장점을 결합하여 더 robust한 검색 성능을 제공합니다.
- ColBERT:
- 쿼리와 문서의 토큰 수준 상호작용을 모델링합니다.
- 세밀한 매칭을 통해 높은 정확도를 제공하면서도 효율적인 검색이 가능합니다.
- Cross-encoder Reranker:
- 첫 단계에서 빠른 retriever로 후보를 추려낸 후, 더 복잡한 cross-encoder 모델로 재순위화합니다.
- 정확도와 효율성의 균형을 잡는 데 효과적입니다.
- ANCE (Approximate Nearest Neighbor Negative Contrastive Learning):
- ANCE는 질의와 문서의 임베딩을 학습하여, 효율적인 근사 최근접 검색을 수행합니다.
- 검색 속도와 정확도 모두에서 우수한 성능을 보입니다.
- 대규모 데이터셋에서의 훈련이 필요합니다.
단순히 모델의 파인튜닝에 집중하는 것 뿐만 아니라, 검색 방법에서도 강건해지는 retriver를 고를 필요가 있다.
tf-idf,knn, 코사인 유사도는 너무 낡은 기법이다. 조합은 좋겠지만 더 많은 것들을 살펴봐야 할 필요가 있다.
반응형