Web Speech API는 WAV 파일을 넣고 자동적으로 돌아갈 수 없는 시스템이다. 프론트엔드에서 직접적으로 부를 수 있는 API여서 그렇다.CER이 궁금했던 나는 전에 해봤던 Whisper 파인튜닝 실험과 같이 성능 측정을 시도했다. 방법은 이렇다. 자동화를 위해서 source를 가져와 스피커로 틀고, 그 스피커로 튼 걸 마이크로 인식시킨다. 그렇게 지난번 포스팅과 똑같은 1000개 정도의 샘플 파일을 다음과 같은 코드로 시도했다. Web Speech API CER 측정 시작 결과는 어떻게 나왔을까? 파일: 노인남여_노인대화07_F_CSO00_62_수도권_녹음실_07250.wavSTT 결과: 저사람이나한테저렇게행동을하는구나원본 텍스트: 저사람이나한테저렇게행동을..
https://openai.com/index/introducing-the-realtime-api/ Chatgpt에서 6일 전에 Realtime api가 출시되었다.4o와 연동된 Websocket형 실시간 API로서, 오디오와 텍스트 전부를 받아들이고 실시간으로 답변할 수 있는 API이다. 기존의 연동된 대답이 STT - 텍스트 받아들이기 - TTS로 출력이었다면, 이제는 한꺼번에 대답까지 해주는 식이다. 실제로 필자는 출시되자마자 시도해보았다. 일단은 Beta 버전이라 React와 Node.js로 된 코드로만 실행할 수 있고, API 키가 필요하다.코드는 이곳에 있다. userHello!assistantHello! How can I assist you today?user이봐 너 한국말도 되는거야 지금?a..
https://velog.io/@cjkangme/%EC%A0%9C-4%ED%9A%8C-K-%EB%94%94%EC%A7%80%ED%84%B8%ED%8A%B8%EB%A0%88%EC%9D%B4%EB%8B%9D-%ED%95%B4%EC%BB%A4%ED%86%A4-%ED%9B%84%EA%B8%B0 1. Where (어디에 팔아야 하는가?)타겟 시장: 고령자가 기술에 가장 쉽게 접근할 수 있는 장소나 환경을 고려해 보세요.노인 복지센터: 지역 사회의 복지관이나 정부 지원 프로그램과 협력.원격 의료 플랫폼: 이미 고령자들이 사용하는 원격 의료 서비스와 통합.요양 시설: 요양원, 병원, 혹은 클리닉 같은 고령자가 자주 방문하는 장소에 제공.가족 및 보호자 네트워크: 고령자를 돌보는 가족이나 보호자 커뮤니티와 협력해 서비..
600step 파인튜닝 모델600개 파일 처리 완료600개 파일 처리 완료. 현재 CER: 0.0432걔네는결혼도안한상태고너무젊죠 STT 결과걔네는결혼도안한상태고너무젊죠 원래 입력0.0그래서그래도누리씨는저기외식을좀참자주하는것같아요 STT 결과그래서그래도누리씨는저기외식을좀참자주하는것같아요 원래 입력0.0물론아침식사과일갈아서먹는거좋죠 STT 결과물론아침식사과일갈아서먹는거좋죠 원래 입력0.0되게아이들을차분하게만들어주는그런게있잖아 STT 결과되게아이들을차분하게만들어주는그런게있잖아 원래 입력0.0이런테미여행이진짜의미는것같아 STT 결과이런테미여행이진짜의미있는것같아 원래 입력0.06666666666666667감자빨리다먹어야되니까많이넣지요즘감자밥먹고있다 STT 결과감자빨리다먹어야되니까많이넣지요즘감자밥먹고있다 원래 입..
저번 시간에는 Whisper Large v3의 파인 튜닝의 시도를 했다. 그리고 이번 시간에는 데이터셋의 규모와, 파인 튜닝을 어떻게 했는지에 대한 기록을 남기고자 한다.코드는 여기에서 볼 수 있다.아무래도 하나의 환경이 아닌 여러 군데에서 사용할 데이터셋인지라, 변환한 feature를 허깅페이스에 데이터셋 형태로 올려 놓았다.겨우 8만개 데이터셋이지만, 이 정도만 해도 다운 받는데 150GB 정도 든다. 음성 학습에 얼마나 불어나는지 알 수 있는 정보다. Step은 600으로 잡았고, 평가 함수는 CER로 했다.보게 되면 CER이 낮아졌다가 다시 올라가는 걸 볼 수 있다. 과적합이라고 생각해도 되고, 특징적인 일반화가 적용된다고 봐도 되지만, 마지막에 loss가 올라간 걸 보면 결과적으로 보면 과적합일..
https://aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=realm&dataSetSn=107 AI-Hub샘플 데이터 ? ※샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며, 데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되aihub.or.kr 사용한 데이터는 노인 음성 대화 데이터.지난시간에 만든 데이터 전처리를 포함해서, Pre-Trained 모델에 Validation 데이터 중 1000개의 데이터를 포함해서 먼저 간이 CER 측정을 시도했다.!pip install transformers datasets jiwer librosaimport torch..