빅프로젝트를 진행하면서 ARC(Auto Speech Recognition) 모델을 만들 일이 생겼다. 또한 음성 인식 모델을 거친 output을 텍스트 데이터와 멀티 모달로 묶어야 할 일도 생겼다. 그래서 이번 기회에 그냥 AI 음성인식에 대해서 간단하게 정리해보려고 한다. 이론만 정리할 것이고, 나중에 내가 봐도 알아볼 수 있게 요약정리해본다. AI의 음성 인식은 도대체 어떻게 이루어지는가? 생각을 해보자. 우리는 어떻게 음성을 듣는가?처음 생각해보면, 가장 간단하게 귀에 있는 고막이 있고, 해당하는 고막이 진동하면서 소리를 듣는다.마이크가 이와 똑같은 원리이다. 마이크에는 코일이 있고, 이 코일이 진동하면서 내는 전기 신호를 해석하여 마이크가 소리를 알아듣는 것이다. 이런 소리 데이터는 결국 스펙트로..
apple에서 나온 논문 2024년 4월 22일 huggingface에 오픈 소스로 코드가 있다. 바로 다음날에 MS에서 더 작은 크기의 모델이 나왔다. transformer 기반의 구조를 가지고 있는 기존 LLM은 isotropic(모든 방향으로 동일한 성질, 모든 transformer 계층이 구조적으로 동일하다)장점 - 구현과 학습이 간단하다.단점 - 다양한 유형의 정보를 처리해야 하는 경우(문법, 문맥 등) 특정 유형의 정보를 처리하기 힘둘 수 있다. OpenELM은 anisotropic하다는 걸 말하고 시작하고 있다. 기존의 LLM보다 토큰도 작고, 모델 사이즈도 작으나, Average acc에서 더 좋은 성능을 보인다.공개 데이터셋을 사용했다.Source Subset TokensRefinedWe..
https://arxiv.org/abs/2312.11514 애플에서 발표한 논문제한된 메모리에서 LLM 모델을 효과적으로 다루는 것에 대한 논문플래시 메모리에 저장해서 효과적으로 늘린다. 서론대규모 언어 모델(LLM)은 다양한 작업에서 탁월한 성능을 제공하며 현대 자연어 처리의 중심이 되고 있습니다.그러나 이들의 상당한 계산 및 메모리 요구사항은 특히 DRAM 용량이 제한된 장치에서 과제가 되고 있습니다.본 논문은 사용 가능한 DRAM을 초과하는 LLM을 실행하기 위해 모델 매개변수를 플래시 메모리에 저장한 다음 필요에 따라 DRAM으로 가져오는 과제를 다룹니다. 우리의 방법은 플래시 메모리의 특성을 고려한 추론 비용 모델을 구성하여 두 가지 중요 영역에서 최적화를 안내합니다: 플래시에서 데이터 전송 량..
https://arxiv.org/abs/2402.17764 LLM 양자화에 대한 내용 양자화 - 신경망의 가중치와 활성함수의 출력값을 더 작은 bit로 변환한다.FP32를 quantization -> int8로 변환 양자 LLM의 시대gpt-3 : 1750억개의 파라미터하이퍼 클로바 : 2000억개엑사원 3000억개 에너지 소비 및 경제적 영향에 대한 우려로 양자화를 사용한다.개인이 finetuning하기에는 한계가 있다. 현재는 16bit llm을 4bit quantization 하는 게 트렌드 (LoRA, QLoRA)peft 방식 BitNet b1.58파라미터가 삼진법(-1,0,1)을 사용하여 계산 비용을 줄이고 모델의 효율성을 향상시킨다.더 낮은 비용으로 동일하거나 더 나은 성능을 달성할 수 있음..
https://arxiv.org/abs/2102.12092 제로 샷모델이 훈련 중에 본적 없는 새로운 클래스나 작업에 대해 예측한다. 데이터 부족 문제를 해결한다 : 제한되거나 없는 데이터를 예측할 수 있다.유연한 활용 : 다양한 task에 적용할 수 있고, 다양한 시나리오에 유연하게 대응할 수 있다. 엄청난 양의 말뭉치를 활용해서 비슷한 곳에 매핑하게 된다. 한 두개라도 있다면 Few shot이라고 한다. Text to image generation - 텍스트를 바탕으로 컴퓨터가 이미지를 생성하는 기술이다. GAN을 쓴 모델이 나왔을 때부터 성능이 좋아졌다.DALL E2 선행연구object location - 이미자 들어왔을 때 오브젝트가 어디에 있는지에 대해서 학습한다.오브젝트의 어떤 특징이나 위..
https://github.com/PINTO0309/onnx2tf GitHub - PINTO0309/onnx2tf: Self-Created Tools to convert ONNX files (NCHW) to TensorFlow/TFLite/Keras format (NHWC). The purpos Self-Created Tools to convert ONNX files (NCHW) to TensorFlow/TFLite/Keras format (NHWC). The purpose of this tool is to solve the massive Transpose extrapolation problem in onnx-tensorflow (onnx-t... github.com pytorch에는 장점이 있다. hu..