[빅프로젝트] 4주차의 시행착오 - 모델링 마무리, 백엔드 기능 구현

티스토리 뷰

프로젝트/에이블스쿨

sikaro 2024. 7. 17. 21:36

4주차는 너무 바빴던 주인 것 같다.

모델링도 마무리하고, 팀원들과 함께 백엔드에 있는 기능들을 통합하면서 자동화를 이루어지게 만들었다.

특히나 기능적인 면을 확실히 만들어서

모델링 파트의 경우, 구급/비구급과 16종의 상황 분류에 대해서는 아주 잘 나왔다.

추가적인 기능 추가를 위해 모델링을 하나 더 하려고 했다.

그러나 긴급도에 대해서 상/중/하를 나누었을 때, 해당하는 것에 대해서는 정확도가 0.57 분류를 잘 하지 못했다.

Kc-ELECTRA 모델이 가장 높았고, KoBERT나 KLUE 같은 다른 모델도 써봤으나 효과는 별로 좋지 않았다.

혹시나 해서 데이터를 갈무리해 머신 러닝 모델까지 돌려보았으나 최대 0.6에 그쳤다.

아무래도 데이터 자체가 16종 분류를 하는 데 있어서 편향되어 있다는 결론.

하지만 데드라인까지 남은 시간은 고작 2주 남짓이기에, ppt 준비와 나머지 통합 작업에 남은 시간이 별로 없었다.

그렇기에 해당 기능 추가는 포기하기로 결정을 내렸고, 프론트 엔드와 백엔드의 통합 및 마무리에 올인하기로 결정했다.

코치님도 잘한 결정이라고 하였다.

백엔드적으로 기능이 많이 추가되었다.

일단 GPT에 신고받은 문장을 집어 넣었을 때, 해당하는 장소와 상황을 분류한다.

그런 조건 중에 하나라도 포함되지 않거나 정보가 부족할 경우에 다시 신고자에게 부족한 정보를 되묻는다.

이미 DB에 있는 신고 정보와 많이 유사할 경우, 중복 신고로 접수되지 않는다.

조건을 다 통과하면 정상적으로 신고가 접수되고, DB에 저장된다.

사실 이럴거면 GPT만으로 모델을 짤 수 있겠지만, 어디까지나 토큰 값이 문제고, 확률적인 모델이기에 요약 정도로만 쓰는게 바람직 하다.

프롬프팅 및 temprature 조절, top_p 조절 등으로 최대한 확률을 조절할 수 있는 값을 찾아 적용하기로 했다.

아직까지는 미완성이지만, 어느정도 실험을 거듭하면 가능성이 높아 보인다.

STT의 경우 web-speech-api를 쓰는 것도 나쁘지 않아 보여 실험해보는중.

그동안은 네이버 클로버를 쓰게 될 거 같다.

단순히 개발을 잘하는 것 뿐만 아니라, 시연을 잘하는 게 중요하다. 기획과 마케팅 배울때도 느꼈지만 보이지 않는 것보다 보이는 건 꽤나 중요하다.

그러니 보이는 것에 대한 투자를 아끼지 말자.