티스토리 뷰

반응형

 

  • Dense Passage Retrieval (DPR):
    • 쿼리와 문서를 고차원 벡터 공간에 임베딩하는 신경망 기반의 방법입니다.
    • 의미적 유사성을 잘 포착하여 전통적인 키워드 기반 방법보다 우수한 성능을 보입니다.
  • Contrastive Learning-based Retriever:
    • 대조 학습을 사용하여 관련 문서와 비관련 문서를 더 잘 구분하도록 학습합니다.
    • SimCSE나 ConDE와 같은 방법들이 이 범주에 속합니다.
  • Hybrid Retriever:
    • 스파스 검색(예: BM25)과 덴스 검색(예: DPR)을 결합한 방법입니다.
    • 두 방식의 장점을 결합하여 더 robust한 검색 성능을 제공합니다.
  • ColBERT:
    • 쿼리와 문서의 토큰 수준 상호작용을 모델링합니다.
    • 세밀한 매칭을 통해 높은 정확도를 제공하면서도 효율적인 검색이 가능합니다.
  • Cross-encoder Reranker:
    • 첫 단계에서 빠른 retriever로 후보를 추려낸 후, 더 복잡한 cross-encoder 모델로 재순위화합니다.
    • 정확도와 효율성의 균형을 잡는 데 효과적입니다.
  • ANCE (Approximate Nearest Neighbor Negative Contrastive Learning):
    • ANCE는 질의와 문서의 임베딩을 학습하여, 효율적인 근사 최근접 검색을 수행합니다.
    • 검색 속도와 정확도 모두에서 우수한 성능을 보입니다.
    • 대규모 데이터셋에서의 훈련이 필요합니다.

 

단순히 모델의 파인튜닝에 집중하는 것 뿐만 아니라, 검색 방법에서도 강건해지는 retriver를 고를 필요가 있다.

 

tf-idf,knn, 코사인 유사도는 너무 낡은 기법이다. 조합은 좋겠지만 더 많은 것들을 살펴봐야 할 필요가 있다.

 

 

반응형