
출처는 테디노트님의 한글 단어 리트리버 실험 이 코드 외에도 항상 퀄리티 높은 코드를 공유해주는 것에 항상 감사드립니다. https://github.com/teddylee777/langchain-kr/blob/main/11-Retriever/10-Kiwi-BM25Retriever.ipynb kiwi_bm25 [0.7] , DPR[0.3] = 0.251kkma는 최종적으로는 0.5224523807.okt는 시간이 오래 걸리긴 해도 명확한 단어를 주었다. kkma보다 약간 더 높았다. 0.523.kiwi가 굉장히 의외의 성과를 올렸다! 0.5547528195. 하지만 반전은..일반 BM25가 0.5666을 달성하며 모든 토크나이저를 꺾어 버렸다! 최종적으로 emsemble 했을 때, 일반 bm25[0.3]..
총 4가지의 pdf를 사용해봤다. pyMuPDF, pyPDF2 , pdfminer, pdfplumber, 이다. !pip install PyMuPDF PyPDF2 pdfminer.six pdfplumber pyMuPDF어느정도 잘 되는 것처럼 보이나, 글자가 많이 나눠지는 경향이 있고, 무엇보다 표를 인식하지 못하는 것 같다.import fitzpath = "/kaggle/input/pdf-files/test_source/중소벤처기업부_혁신창업사업화자금(융자).pdf"doc = fitz.open(path)for page in doc: text = page.get_text() print(text) 사 업 명혁신창업사업화자금(융자) (5152-301)1. 사업 코드 정보구분기금소관실국(기관..
llama 3 blosom 모델 파인튜닝 https://huggingface.co/MLP-KTLim/llama-3-Korean-Bllossom-8B train.csv에 대해서 Q/A 학습 후test.csv Q로 추론 temprature 0.7(창의적이면 오히려 더 나을까? 라는 논리로 적용) 베이스라인 0.24 -> 0.33 두번째 파인튜닝-> 템프리처 0.5, top_p = 0.5보통 채팅으로 추론중복을 줄이기 위해서 config 조절with torch.no_grad(): outputs = model.generate( **inputs, max_new_tokens=256, # 최대 토큰 수 제한 temperature=0.5, ..
빅프로젝트 끝나고 굉장히 오랜만의 공모전 마침 RAG에 대해서 공부하고 싶은 계기가 생겨 참가하게 되었다. 기본적인 베이스라인은 langchain과 pdf추출을 이용한 RAG를 사용한다. 7차 미프에서 해봤던 경험을 바탕으로 실험을 진행. 아직 3일차라 임베딩에서만 실험중이다. https://github.com/ssisOneTeam/Korean-Embedding-Model-Performance-Benchmark-for-Retriever GitHub - ssisOneTeam/Korean-Embedding-Model-Performance-Benchmark-for-Retriever: Korean Sentence Embedding Model Performance BenKorean Sentence Embeddin..
주요 기능:api에 이미지 보내기말로 질문하기너무 답변이 길면 말을 끊을수도 있다.대충 4o 어플이 가지고 있는 기능은 다 넣었다. 하루만에 완성하기 위한 루트.당연히 AI를 써야 한다. gemini api 대회가 있길래 심심해서 만들어본 프로젝트. websim ai = 프론트엔드django를 이용해서 app을 만든다. 그리고 가져다 붙인다. web speech api로 음성을 텍스트로 변환이미지를 받아들이는 건 당연히 리퀘스트 리스폰스 이제 정말 인정할 때가 됐다. AI를 사용하는 건 효율성 측면에서 엄청나다.도대체 이걸 그냥 손으로 쳤으면 얼마나 걸렸을까? 일주일? 한달? 그만큼 파급력이 있다는 걸 인정하고 이제는 차라리 코드를 디버깅 하는 실력을 기르는 게 나은 거 같다.6개월 간 부트캠프 거치면서..
5,6 주차는 코드 수정 뿐만 아니라, ppt에 시연영상까지 찍어야 해서 글을 쓸 시간도 없었다. 마침내 어제부로 모든 산출물을 제출했고, 내가 했던 것들을 잊지 않기 위해 일단은 기록으로 남겨두려 한다. QA(Qulity Assistance) 작업 어찌 보면 실제 검증을 하기에 가장 중요한 작업이다. 여태까지의 개인 프로젝트와 달리, 상업적으로 이게 실용성 있는지 없는지를 보는 거니 말이다. 일단 프론트엔드 측면에서부터 디자인을 갈아엎었다. 실제적으로 눈에 띄는 디자인과, 실용성이 있는 디자인으로 바뀌었다. 그런 측면에서 코드의 검수는 백과 프론트를 어느정도 다 할 수 있는 내가 자진해서 맡았다. 왜냐하면 그렇게라도 하지 않으면 백과 프론트 연결이 안될 것 같았기 때문이다. 어느정도 데이터의 정의는 약..