[RAG] 재정정보 AI 검색 알고리즘 경진대회 - 3(pdf 전처리)
총 4가지의 pdf를 사용해봤다. pyMuPDF, pyPDF2 , pdfminer, pdfplumber, 이다. !pip install PyMuPDF PyPDF2 pdfminer.six pdfplumber pyMuPDF어느정도 잘 되는 것처럼 보이나, 글자가 많이 나눠지는 경향이 있고, 무엇보다 표를 인식하지 못하는 것 같다.import fitzpath = "/kaggle/input/pdf-files/test_source/중소벤처기업부_혁신창업사업화자금(융자).pdf"doc = fitz.open(path)for page in doc: text = page.get_text() print(text) 사 업 명혁신창업사업화자금(융자) (5152-301)1. 사업 코드 정보구분기금소관실국(기관..
프로젝트/kaggle & Dacon
2024. 8. 4. 10:12