괜찮다고 생각되는 TTS 모델에 한국어는 많이 없다.따라서 직접적으로 파인튜닝을 하는 일들이 많은 데, 이때 tts에는 음소와 음절 패딩 부분이 데이터셋에 존재하는 경우가 있다. 음소는 한국어의 자음, 모음처럼 ㄱ, ㄴ, ㄷ, ...ㅏ,ㅑ,ㅓ..등등 각각 따로따로 발음하는, 말 그대로 음의 소리를 나타내어 발음하는 것이다. 이를 영어로는 Phoneme라고 한다. 영어는 음소 언어이므로, 만약 알파벳인 apple을 바꾸면 이렇게 될 것이다. [a,p,p,l,e] 같은 방식으로 한국어도 '사과' 라는 단어가 있다면 [ㅅ,ㅏ,ㄱ,ㅗ,ㅏ]가 된다. 그렇다면 결국 TTS 모델은 숫자를 처리해야 하는데, 음을 어떻게 처리할까? 해답은 간단하다. 바로 각 발음에 숫자를 매겨 조합하는 것이다. 모든 발음과 말은 결국 ..
Attention 구조는 시간복잡도 면에서 필연적으로 토큰의 수의 제곱의 시간이 필요하다.이 구조를 타파하기 위해서 Linear Attention 등 많은 해결책을 제시했지만, 결국 토큰이 많아질 수록 모델의 아웃풋이 느려지는 건 해결하지 못했다. Mamba 논문은 그 후 거의 7년만에 나온 대안책으로서, Selective State Space라는 상태 공간 모델링을 통해 RNN, LSTM과 같은 기존 시계열 구조를 쓰면서도, 상태 방정식과 게이트 메커니즘도 도입하여 아웃풋 시간이 토큰의 수와 선형적인 증가를 이룸으로서 문제를 해결했다고 주장한다. 2023년 12월에 나왔지만 최근까지도 LLM 분야에서 굉장히 핫한 이 논문을 오늘 구현해보고, 코드를 살펴보자. 논문 구현에 앞서 확인해야 할 포인트Read..
LLM 세대를 연 가히 혁명적인 논문. 필자는 사실 수십번도 더 봤던 논문이다.그러나 구현 과정에 대해서 자세히 살펴보지 않았었는데, 이번에는 Pytorch 코드를 보면서 어떤 구조로 되어 있는지 정말 정밀하고, 자세하게 살펴보도록 하겠다.논문 구현에 앞서 확인해야 할 포인트Read1. 논문 제목(title)과 초록(abstract), 도표(figures) 읽기2. 도입(introduction), 결론(conclusion), 도표(figures)를 읽고 필요없는 부분 생략3. 수식은 처음 읽을 때는 과감하게 생략4. 이해가 안되는 부분은 빼고 전체적으로 읽는다. QnA1. 저자가 뭘 해내고 싶어했는가?2. 이 연구의 접근에서 중요한 요소는 무엇인가?3. 당신(논문독자)는 스스로 이 논문을 이용할 수 있는..
논문 구현에 앞서 확인해야 할 포인트 Read1. 논문 제목(title)과 초록(abstract), 도표(figures) 읽기2. 도입(introduction), 결론(conclusion), 도표(figures)를 읽고 필요없는 부분 생략3. 수식은 처음 읽을 때는 과감하게 생략4. 이해가 안되는 부분은 빼고 전체적으로 읽는다. QnA1. 저자가 뭘 해내고 싶어했는가?2. 이 연구의 접근에서 중요한 요소는 무엇인가?3. 당신(논문독자)는 스스로 이 논문을 이용할 수 있는가?4. 당신이 참고하고 싶은 다른 레퍼런스에는 어떤 것이 있는가? 구현하기1. 수식 이해하고 직접 연산하기2. 코드 연습하기(오픈소스를 받아 직접 구현) 1. 논문 제목(title)과 초록(abstract), 도표(figures) 읽기H..
논문 100개 구현의 1탄을 장식한다.최근 어떤 부트캠프 홈페이지에서 논문을 50~100개 구현할 수 있으면 전문가 수준이 된다고 해서 직접 해보려고 한다.4~6개월에 1천만원이라면 비싼 돈 들일 필요 없이 직접 하면 돈이 아껴지지 않겠는가.어떻게 보면 의지로 돈을 사는 셈이다. 고로 오늘 해볼 논문은 공모전에서도 활용해볼 겸 U-Net의 논문이다.https://arxiv.org/abs/1505.04597 논문 구현에 앞서 확인해야 할 포인트 Read1. 논문 제목(title)과 초록(abstract), 도표(figures) 읽기2. 도입(introduction), 결론(conclusion), 도표(figures)를 읽고 필요없는 부분 생략3. 수식은 처음 읽을 때는 과감하게 생략4. 이해가 안되는 부분..
https://www.arxiv.org/abs/2407.16833 RAG vs LC의 결과를 보여주는 논문이다. LC는 확실히 성능면에서는 뛰어나지만, Token 값이 비싸고, RAG는 LC에 비해 한참 성능이 떨어진다. 그래서 해당 논문은 둘을 합친 Self-Route라는 기법을 제시했다. 개념은 간단하다. RAG가 retriever를 통해 unaswerable이라는 결론을 내놓으면, LC로 가고, 아니면 그냥 End로 끝낸다.이걸 어떻게 구현하냐면, LangGraph로 구현하면 가능하다. 코드를 보기에 앞서서 그래프로 간략하게 구현해보면 다음과 같다.요지는 retriever를 다르게 쓰는 것이다. llm_answer로 바로 줄 수도 있지만, 그렇게 되면 Unanswerable이 지속적으로 나올 수 있..