
transformer 기반 백본은 NLP 모델에 아주 파격을 불러왔고, 지금도 많이 연구되고 있는 여러모로 핫한 논문이다. 여태까지 모델은 transformer 기반 구조로, self-attention 메커니즘을 이용해서 텍스트의 정밀도와 정확도를 예측해왔다. 하지만 본 논문에서는 다시 RNN과 CNN 같은 초심으로 돌아가, 게이트 메커니즘을 사용하면서도 아주 빠르게 선형적으로 처리할 수 있는 기반을 마련한다. 어떻게? Selective SSM(State Spaces Modeling)을 통해서! 상태 공간 모델링은 원래 제어에 쓰는 것이다. 본 블로그에서도 로봇이론 포스팅을 할 때 한 번 소개한 적이 있었다.학부가 기계과인 나로서는 자주 보던 공식이라 상당히 흥미로웠다. 본 논문은 어려워보이지만, 핵심..

빅프로젝트를 진행하면서 ARC(Auto Speech Recognition) 모델을 만들 일이 생겼다. 또한 음성 인식 모델을 거친 output을 텍스트 데이터와 멀티 모달로 묶어야 할 일도 생겼다. 그래서 이번 기회에 그냥 AI 음성인식에 대해서 간단하게 정리해보려고 한다. 이론만 정리할 것이고, 나중에 내가 봐도 알아볼 수 있게 요약정리해본다. AI의 음성 인식은 도대체 어떻게 이루어지는가? 생각을 해보자. 우리는 어떻게 음성을 듣는가?처음 생각해보면, 가장 간단하게 귀에 있는 고막이 있고, 해당하는 고막이 진동하면서 소리를 듣는다.마이크가 이와 똑같은 원리이다. 마이크에는 코일이 있고, 이 코일이 진동하면서 내는 전기 신호를 해석하여 마이크가 소리를 알아듣는 것이다. 이런 소리 데이터는 결국 스펙트로..
apple에서 나온 논문 2024년 4월 22일 huggingface에 오픈 소스로 코드가 있다. 바로 다음날에 MS에서 더 작은 크기의 모델이 나왔다. transformer 기반의 구조를 가지고 있는 기존 LLM은 isotropic(모든 방향으로 동일한 성질, 모든 transformer 계층이 구조적으로 동일하다)장점 - 구현과 학습이 간단하다.단점 - 다양한 유형의 정보를 처리해야 하는 경우(문법, 문맥 등) 특정 유형의 정보를 처리하기 힘둘 수 있다. OpenELM은 anisotropic하다는 걸 말하고 시작하고 있다. 기존의 LLM보다 토큰도 작고, 모델 사이즈도 작으나, Average acc에서 더 좋은 성능을 보인다.공개 데이터셋을 사용했다.Source Subset TokensRefinedWe..
보호되어 있는 글입니다.
보호되어 있는 글입니다.
보호되어 있는 글입니다.