꽤나 늦은 포스팅. 어찌저찌 최적화하여 달성하긴 했다. pyMuPDF가 확실히 그래도 잘 들어갔으나, 여기부터는 텍스트의 한계를 느꼈고, 이제부터는 표를 추출하도록 했다.그렇게 달성한 게 0.67665이다. k를 줄여보고, pdfplumber로 표를 마크다운으로 만든 후 요약해서 메타데이터에 넣어 달성했다.다만 이미지 영역도 필요할 거 같아서 이제는 멀티모달 모델도 알아보는 중이다. 최고 순위를 달성하긴 했어도 여기서 뭔가 더 나아가려면 모델 자체를 바꿔야 하는 것도 같다.ko-gemma-it 모델은 아주 좋지만, ChatGPT와 비교했을 때 확실히 뒤떨어지는 성능을 보여주었다. 아마도 나보다 위에 있는 분들은 대부분 더 좋은 모델을 사용하지 않았을까 싶긴 하다.다만 문제는 유료 API가 안되다 보니....
Llama 대신 GEMMA 9b를 쓰니 정확도가 늘어났다. 원래 0.5666->0.6243으로 향상 거기에 ensemble retriever를 적용했을 때 0.6545 으로 증가거기에 kiwi retriever를 적용햇을 때 0.6568로 증가했다. 아마 여기까지가 일반적인 LLM이나 retriever 방법론의 끝일듯 싶고, 이 다음부터는 파인튜닝이나 multi query, self-query 같은 기법이 작용해야 할 것 같다. 아니면 RAPTOR 같은 기법을 적용하던가. 어쨌든 간에 리더보드 스코어가 20위 권 안에 들어간 건 좋은 일이다. 현재 0.67이 10위권이니, 정말 잘 한다면 10위권도 노려볼 수 있음직 하다. 0.7까지만 향상시키면 실전에서도 꽤나 좋게 쓸 수 있다는 증거도 된다. 그렇기에..
출처는 테디노트님의 한글 단어 리트리버 실험 이 코드 외에도 항상 퀄리티 높은 코드를 공유해주는 것에 항상 감사드립니다. https://github.com/teddylee777/langchain-kr/blob/main/11-Retriever/10-Kiwi-BM25Retriever.ipynb kiwi_bm25 [0.7] , DPR[0.3] = 0.251kkma는 최종적으로는 0.5224523807.okt는 시간이 오래 걸리긴 해도 명확한 단어를 주었다. kkma보다 약간 더 높았다. 0.523.kiwi가 굉장히 의외의 성과를 올렸다! 0.5547528195. 하지만 반전은..일반 BM25가 0.5666을 달성하며 모든 토크나이저를 꺾어 버렸다! 최종적으로 emsemble 했을 때, 일반 bm25[0.3]..
총 4가지의 pdf를 사용해봤다. pyMuPDF, pyPDF2 , pdfminer, pdfplumber, 이다. !pip install PyMuPDF PyPDF2 pdfminer.six pdfplumber pyMuPDF어느정도 잘 되는 것처럼 보이나, 글자가 많이 나눠지는 경향이 있고, 무엇보다 표를 인식하지 못하는 것 같다.import fitzpath = "/kaggle/input/pdf-files/test_source/중소벤처기업부_혁신창업사업화자금(융자).pdf"doc = fitz.open(path)for page in doc: text = page.get_text() print(text) 사 업 명혁신창업사업화자금(융자) (5152-301)1. 사업 코드 정보구분기금소관실국(기관..
llama 3 blosom 모델 파인튜닝 https://huggingface.co/MLP-KTLim/llama-3-Korean-Bllossom-8B train.csv에 대해서 Q/A 학습 후test.csv Q로 추론 temprature 0.7(창의적이면 오히려 더 나을까? 라는 논리로 적용) 베이스라인 0.24 -> 0.33 두번째 파인튜닝-> 템프리처 0.5, top_p = 0.5보통 채팅으로 추론중복을 줄이기 위해서 config 조절with torch.no_grad(): outputs = model.generate( **inputs, max_new_tokens=256, # 최대 토큰 수 제한 temperature=0.5, ..
빅프로젝트 끝나고 굉장히 오랜만의 공모전 마침 RAG에 대해서 공부하고 싶은 계기가 생겨 참가하게 되었다. 기본적인 베이스라인은 langchain과 pdf추출을 이용한 RAG를 사용한다. 7차 미프에서 해봤던 경험을 바탕으로 실험을 진행. 아직 3일차라 임베딩에서만 실험중이다. https://github.com/ssisOneTeam/Korean-Embedding-Model-Performance-Benchmark-for-Retriever GitHub - ssisOneTeam/Korean-Embedding-Model-Performance-Benchmark-for-Retriever: Korean Sentence Embedding Model Performance BenKorean Sentence Embeddin..