[RAG] 경진대회 4 - 0.5666으로 증가 / Retriever, LongContextReloader

티스토리 뷰

프로젝트/kaggle & Dacon

sikaro 2024. 8. 4. 13:53

출처는 테디노트님의 한글 단어 리트리버 실험

이 코드 외에도 항상 퀄리티 높은 코드를 공유해주는 것에 항상 감사드립니다.

kiwi_bm25 [0.7] , DPR[0.3] = 0.251

kkma는 최종적으로는 0.5224523807.

okt는 시간이 오래 걸리긴 해도 명확한 단어를 주었다. kkma보다 약간 더 높았다. 0.523.

kiwi가 굉장히 의외의 성과를 올렸다! 0.5547528195.

하지만 반전은..

일반 BM25가 0.5666을 달성하며 모든 토크나이저를 꺾어 버렸다!

최종적으로 emsemble 했을 때, 일반 bm25[0.3] , DPR[0.7]이 현재까지 가장 Best.

LongContext Reloader는 LLM이 중간 문서는 별로 참고하지 않는다는 점을 반영하여 처음과 마지막으로 재정렬 해주는 것.

이 덕분에 원래 3개만 참고했던 것을 20개로 늘릴 수 있었다.

최종적으로는 Llama 70B 로 추론을 돌렸다. 결과는?

아주 만족스러운 결과.

self-query retriever로 실험한 결과도 있긴 한데, 그건 나중에 또 다른 포스팅에서 올리겠다.

최종적으로는 10위권을 목표로 하는 걸로 하자. 현재 10위권은 0.62!

곧 따라잡는다!

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`