5,6 주차는 코드 수정 뿐만 아니라, ppt에 시연영상까지 찍어야 해서 글을 쓸 시간도 없었다. 마침내 어제부로 모든 산출물을 제출했고, 내가 했던 것들을 잊지 않기 위해 일단은 기록으로 남겨두려 한다. QA(Qulity Assistance) 작업 어찌 보면 실제 검증을 하기에 가장 중요한 작업이다. 여태까지의 개인 프로젝트와 달리, 상업적으로 이게 실용성 있는지 없는지를 보는 거니 말이다. 일단 프론트엔드 측면에서부터 디자인을 갈아엎었다. 실제적으로 눈에 띄는 디자인과, 실용성이 있는 디자인으로 바뀌었다. 그런 측면에서 코드의 검수는 백과 프론트를 어느정도 다 할 수 있는 내가 자진해서 맡았다. 왜냐하면 그렇게라도 하지 않으면 백과 프론트 연결이 안될 것 같았기 때문이다. 어느정도 데이터의 정의는 약..
4주차는 너무 바빴던 주인 것 같다. 모델링도 마무리하고, 팀원들과 함께 백엔드에 있는 기능들을 통합하면서 자동화를 이루어지게 만들었다.특히나 기능적인 면을 확실히 만들어서 모델링 마무리모델링 파트의 경우, 구급/비구급과 16종의 상황 분류에 대해서는 아주 잘 나왔다. 추가적인 기능 추가를 위해 모델링을 하나 더 하려고 했다. 그러나 긴급도에 대해서 상/중/하를 나누었을 때, 해당하는 것에 대해서는 정확도가 0.57 분류를 잘 하지 못했다.Kc-ELECTRA 모델이 가장 높았고, KoBERT나 KLUE 같은 다른 모델도 써봤으나 효과는 별로 좋지 않았다. 혹시나 해서 데이터를 갈무리해 머신 러닝 모델까지 돌려보았으나 최대 0.6에 그쳤다.아무래도 데이터 자체가 16종 분류를 하는 데 있어서 편향되어 있..
지난 글과 이어지는 글이다. 지난 글에 AI 허브에서 데이터가 개방되지 않았다고 했는데, 정말 다행스럽게도 프로젝트가 시작되지 얼마 되지 않아 모델과 데이터가 열렸다!(!!!!) 너무 신나했더니 팀원들이 그렇게나 좋냐며 말했다. 왜냐하면 지난 글에서 분명 accuracy는 높게 달성했지만, 실제 Test 스코어 상에서는 너무 성능이 떨어졌기 떄문이다.한글로 번역해서 한글 데이터 셋으로 Kcelectra를 쓰기도 했지만, 역시나 augmentation을 했어도 너무 성능이 떨어져서 이걸 어떻게 해야 하던 찰나에, 데이터셋이 열린 것이다. 그래서 일단은 제공되는 모델을 실험해보기로 했따.데이터셋은 13만개 정도이므로, GPU를 넣는다면 어느정도 될 수 있으나, 이미 성능이 좋다면 이미 있는 모델을 쓰는 게 ..
지난 글과 이어지는 글이다. 기본적으로 텍스트 데이터를 다루는 만큼, 정말 준비를 단단히 해왔다. Task의 목표는 긴급도를 상/중/하로 나누는 것.영어 텍스트 라벨링은 메타데이터가 있었지만, 해당 기준에 대한 건 없었기에 일단은 정하고 가야 했다. 그래서 메타데이터에서 death와 potential_death, false alarm, descrition으로 일차로 나누어보기로 결정.처음 만들어본 코드는 이랬다.import pandas as pd# CSV 파일 읽기file_path = '/kaggle/input/911-recordings/911_recordings/911_metadata.csv'data = pd.read_csv(file_path)def classify_emergency(row): d..
https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=data&dataSetSn=71768 AI-Hub분야재난안전환경 유형 오디오 , 텍스트 구축년도 : 2023 갱신년월 : 2024-06 조회수 : 249 다운로드 : 0 다운로드 관심데이터 등록 관심 6www.aihub.or.kr 원래 우리 프로젝트에 사용하려고 했던 데이터셋이다. 그러나 1차 개방에 포함되지 않아서 문의해보니, 7월달에 추가되는 건 어렵겠다고 직접 전화가 오셨다.빅프 발표가 7월 31일이라 결국 우리는 대체를 찾아야 했다.그나마 대응을 할 수 있도록 해주셔서 감사할 따름이다. 따라서 우리 프로젝트는 일단 영어로 된 데이터셋으로 우선 구축하..
임시로 적어놓는 글이다. 우리 프로젝트에 모델은 총 2가지가 필요하다. 하나는 음성을 인식하여 STT로 만드는 것.두번째는 사람 및 위험물을 인식하여 표시해주는 object detection 모델이다. 2024년 6월 기준 현재 STT의 3대장은 ETRI, Google Speech, Open AI Whisper이다. ETRI API가 하루에 천건이지만, 수행하기에도 쉽고 한국어 최적화 및 속도가 빠르기에 이걸 쓰는 게 좋을 거 같다. object detection 모델은 django를 백엔드로 하여 api 형태로 통신하는 것으로 만들 것이다.모듈화도 편하고, 쓰기도 편하기 때문. API 만들기모델은 yolo를 쓴다고 하지만, api 형식으로 만들 것이기에 추론에 대한 속도도 고려해야 한다.또한 서버에서..