[RAG] 경진대회 - 최고 13위 달성 및 많은 방법론 적용(현재 0.67665)

티스토리 뷰

프로젝트/kaggle & Dacon

sikaro 2024. 8. 13. 12:07

꽤나 늦은 포스팅.

어찌저찌 최적화하여 달성하긴 했다.

pyMuPDF가 확실히 그래도 잘 들어갔으나, 여기부터는 텍스트의 한계를 느꼈고, 이제부터는 표를 추출하도록 했다.

그렇게 달성한 게 0.67665이다.

k를 줄여보고, pdfplumber로 표를 마크다운으로 만든 후 요약해서 메타데이터에 넣어 달성했다.

다만 이미지 영역도 필요할 거 같아서 이제는 멀티모달 모델도 알아보는 중이다.

최고 순위를 달성하긴 했어도 여기서 뭔가 더 나아가려면 모델 자체를 바꿔야 하는 것도 같다.

ko-gemma-it 모델은 아주 좋지만, ChatGPT와 비교했을 때 확실히 뒤떨어지는 성능을 보여주었다.

아마도 나보다 위에 있는 분들은 대부분 더 좋은 모델을 사용하지 않았을까 싶긴 하다.

다만 문제는 유료 API가 안되다 보니..어떤 모델을 돌려도 GPU 메모리의 한계를 벗어나기 힘들다.

그래서 Vast.ai 사용법을 익혔다. 하지만 메모리적인 부분에서 70B를 돌려보기에도 꽤 한계가 있는 것 같다.

다만, 돈이 정말 줄줄 새어나간다. 토큰 값에 비하면 한참 싸긴 하지만, 그래도 이틀만에 3만원을 써버렸다.

양자화도 시도해봤지만 진짜 성능 차이가 월등히 난다. 차라리 9B를 사용하는 게 나을 정도.

여기서 포기하기엔 아직 이르기에 차라리 Mistral Large 같은 걸 써볼까도 생각중이다.

돈은 많이 깨지겠지만..2차 평가만 받을 수 있다면 아무래도 좋을 것 같다.

이만 마치겠다.