티스토리 뷰

반응형

출처는 테디노트님의 한글 단어 리트리버 실험

 

이 코드 외에도 항상 퀄리티 높은 코드를 공유해주는 것에 항상 감사드립니다.

 

https://github.com/teddylee777/langchain-kr/blob/main/11-Retriever/10-Kiwi-BM25Retriever.ipynb

 

kiwi_bm25 [0.7] , DPR[0.3] = 0.251

kkma는 최종적으로는  0.5224523807.

okt는 시간이 오래 걸리긴 해도 명확한 단어를 주었다. kkma보다 약간 더 높았다. 0.523.

kiwi가 굉장히 의외의 성과를 올렸다! 0.5547528195.

 

하지만 반전은..

일반 BM25가 0.5666을 달성하며 모든 토크나이저를 꺾어 버렸다!

 

최종적으로 emsemble 했을 때, 일반 bm25[0.3] , DPR[0.7]이 현재까지 가장 Best.

LongContext Reloader는 LLM이 중간 문서는 별로 참고하지 않는다는 점을 반영하여 처음과 마지막으로 재정렬 해주는 것.

이 덕분에 원래 3개만 참고했던 것을 20개로 늘릴 수 있었다.

 

최종적으로는 Llama 70B 로 추론을 돌렸다. 결과는? 

 

아주 만족스러운 결과.

 

self-query retriever로 실험한 결과도 있긴 한데, 그건 나중에 또 다른 포스팅에서 올리겠다.

최종적으로는 10위권을 목표로 하는 걸로 하자. 현재 10위권은 0.62!

 

곧 따라잡는다!

반응형