티스토리 뷰
프로젝트/kaggle & Dacon
[RAG] 경진대회 4 - 0.5666으로 증가 / Retriever, LongContextReloader
sikaro 2024. 8. 4. 13:53반응형
출처는 테디노트님의 한글 단어 리트리버 실험
이 코드 외에도 항상 퀄리티 높은 코드를 공유해주는 것에 항상 감사드립니다.
https://github.com/teddylee777/langchain-kr/blob/main/11-Retriever/10-Kiwi-BM25Retriever.ipynb
kiwi_bm25 [0.7] , DPR[0.3] = 0.251
kkma는 최종적으로는 0.5224523807.
okt는 시간이 오래 걸리긴 해도 명확한 단어를 주었다. kkma보다 약간 더 높았다. 0.523.
kiwi가 굉장히 의외의 성과를 올렸다! 0.5547528195.
하지만 반전은..
일반 BM25가 0.5666을 달성하며 모든 토크나이저를 꺾어 버렸다!
최종적으로 emsemble 했을 때, 일반 bm25[0.3] , DPR[0.7]이 현재까지 가장 Best.
LongContext Reloader는 LLM이 중간 문서는 별로 참고하지 않는다는 점을 반영하여 처음과 마지막으로 재정렬 해주는 것.
이 덕분에 원래 3개만 참고했던 것을 20개로 늘릴 수 있었다.
최종적으로는 Llama 70B 로 추론을 돌렸다. 결과는?
아주 만족스러운 결과.
self-query retriever로 실험한 결과도 있긴 한데, 그건 나중에 또 다른 포스팅에서 올리겠다.
최종적으로는 10위권을 목표로 하는 걸로 하자. 현재 10위권은 0.62!
곧 따라잡는다!
반응형