말하는 AI 모델의 생성 과정

티스토리 뷰

데이터 사이언스 & 로봇/ML 및 DL 관련 이론

말하는 AI 모델의 생성 과정

sikaro 2024. 1. 31. 12:44

음성인식, 언어지능, 음성합성 순으로 연계

음성인식(Speech To Text)

핵심어 검출, 음성구간 검출, 인식(디코더)로 나뉜다.

핵심어 검출

https://ahnjg.tistory.com/66

핵심어 검출 (KWS, Keyword Spotting)

목차 핵심어 검출 (KWS, Keyword Spotting) 개요 발화자의 음성에서 핵심어를 검출하는 방법 발화자의 음성에서 특징 추출 음향 모델을 활용한 키워드 판별 카카오 미니의 핵심어 검출 엔진 1. 핵심어

ahnjg.tistory.com

1. 음성에서 특징 벡터(feature)을 추출한다.

멜 주파수 캡스트럼, 필터 뱅크 에너지 또는 지각 선형 예측 등

말하는 구간만 잘라 전달한다.

2. 해당 음성 구간이 키워드인지 아닌지를 파악

일반적인 음향 모델은 음소 단위 기반 은식 마르코프 모델

검출을 위한 네트워크는 키워드 모델, 안티 키워드 모델, 백그라운 모델의 연결 구조.

백그라운드 모델은 키워드가 아닌 모든 음성에 대처하는 모델

안티 키워드 모델은 키워드와 유사한 발음을 가진 단어에 대처하는 모델

AI 스피커, IoT 가전, 내비게이션, 자막 서비스, 녹취 데이터 인식

언어지능(자연어처리)

GPT 같은 LLM을 생각하면 아주 빠르게 이해 가능.

NLU (Natural Language Understanding) : 자연어 형태의 언어 해석 및 의도 추론)

NLI (Natural Language Inference) : 의도에 맞추어 어떤 답을 해야 하는지 추론

NLG (Natural Langugae Generation) : 사람이 이해할 수 있는 자연어 문장 형태로 생성

인식된 언어의 내용과 의도를 해석한다.

딥러닝 기반 사전 훈련 모델(LLM)을 적용한다.

MRC,P-NLG 기술

AI 스피커, 차량용 Assistant, 콜센터 가상 상담, 무인 매장, 챗봇 서비스

음성 합성(Text to Speech) - TTS

텍스트를 음소(자음/모음)별로 잘라내서 DB 구축

후에 음소별 데이터 호출 및 결합

앞뒤에 어떤 음소가 있느냐에 따라 다양한 음성데이터 형성이 되기 때문에 다양한 음소 데이터 필요

AI 스피커, ARS, 안내 방송, 책 읽어주기

딥러닝 음성합성

텍스트와 목소리의 관계를 학습하여 학습 데이터에 없는 새로운 텍스트의 목소리 추론

https://hwrg.github.io/posts/2021-%EB%94%A5%EB%9F%AC%EB%8B%9D-%EA%B8%B0%EB%B0%98-%EC%9D%8C%EC%84%B1-%ED%95%A9%EC%84%B1-%EC%B4%9D%EC%A0%95%EB%A6%AC-1/

2021 딥러닝 기반 음성 합성 총정리 - 1

본 게시글은 towards data science 사이트에 Patrick Meyer가 작성한 ‘State Of The Art of Speech Synthesis at the End of May 2021’를 번역 및 정리한 글이다.

hwrg.github.io

화자인식

목소리 특징 벡터 모델링

음색, 속도, 발음 습관 등

특징 벡터값 산출하고, 등록된 특징값과 비교 후 동일인 여부 판별

추가 활용방안

음성인식 - 차량 제어, 가전 제어, 회의록 및 강의록

자연어처리 - B2B 및 GEN(GPT)

음성합성 기술 - 기업에 목소리 제공

화자인식 기술 - 본인인증수단으로 발전

시카로의 공부방

티스토리 뷰