티스토리 뷰

반응형

빅프로젝트 끝나고 굉장히 오랜만의 공모전

 

마침 RAG에 대해서 공부하고 싶은 계기가 생겨 참가하게 되었다.

 

기본적인 베이스라인은 langchain과 pdf추출을 이용한 RAG를 사용한다.

 

7차 미프에서 해봤던 경험을 바탕으로 실험을 진행.

 

아직 3일차라 임베딩에서만 실험중이다.

 

https://github.com/ssisOneTeam/Korean-Embedding-Model-Performance-Benchmark-for-Retriever

 

GitHub - ssisOneTeam/Korean-Embedding-Model-Performance-Benchmark-for-Retriever: Korean Sentence Embedding Model Performance Ben

Korean Sentence Embedding Model Performance Benchmark for RAG - ssisOneTeam/Korean-Embedding-Model-Performance-Benchmark-for-Retriever

github.com

레퍼런스는 여기.

임베딩 벤치마크를 참고해서 실험을 진행중.

이 다음에는 다른 방식의 retriver도 써가면서 실험할 예정이다. QA셋이 있는 csv가 이미 존재하기에 모델 파인튜닝은 가장 나중에.

베이스라인 - 0.24(llama-2-7b)

paraphrase-multilingual-mpnet-base-v2 - f1 score 0.24 -> 0.25 향상

jhgan/ko-sroberta-multitask - f1 score  -> 0.27 향상

 

기본적으로 로컬에서 테스트한 f1 score에서는 chatgpt-3.5 turbo를 활용

0.4가 나온다.

아이러니 한건 4o-mini보다 3.5가 더 잘나온다는 것(0.34 < 0.4)

 

오히려 temprature나 그런게 더 잘되어 있어서 그런건지 몰라 multi-query retriever나, self-query retriever를 사용해야 할 것으로 보인다.

 

일단 구축하고 결론내려야 겠다. 

반응형