vLLM은 파이썬 서빙 라이브러리 중에서도 매우 빠른 라이브러리로 꼽힌다. 이번에 사내에서 자체적으로 구동되는 VLM이 너무 느려서(Python 기반), vLLM 포팅 프로젝트를 혼자 진행하면서 vLLM 라이브러리를 구조를 전부 뜯어보았다.그러면서 LLM Decoding에 대해 굉장히 이해가 높아졌는데, 그 과정을 글로 남기려고 한다. 그 내부구조를 살펴보면, 단순히 Predict 버전들을 C++로 포팅했다 정도가 아니라, 굉장히 광범위한 기술을 가지고 있는데,지금부터 vLLM의 대표적인 기술인 KV Cache와, 그와 관련되어 추가로 따라오는 히트율에 대해서 설명해보겠다. 1. KV Cache란? KV Cache에 대해서 이해하기 위해서는, 먼저 LLM이 어떻게 Decoding되는지에 대한 과정을 생..
https://platform.claude.com/docs/en/agents-and-tools/tool-use/memory-tool 모든 Agent들의 문제점은, Turn이 많아질수록, Memory에 쌓이는 Context가 많아진다는 점이다.그리고, 그렇게 쌓인 메모리는 Context에 대해서 할루시네이션 현상을 보이게 된다. Claude SDK에 있는 Memory tool은 이를 어떻게 극복하였는지, Claude Code의 SDK 코드를 뜯어보면 알 수 있다. 단순하게 압축으로 보일 수 있지만, Claude 4.5 Sonnet은 굉장히 똑똑하게 학습된 모델이다. MCP Tool 관련으로 자동적으로 툴을 Aware 하게 되어 있다. 그 점을 활용한 대표적인 Tool이 Memory 툴이라고 볼 수 있다. ..
https://www.youtube.com/watch?v=bQ3JHj1rOSQ 1. 전통적인 구조를 버리고, 2023년에 E2E 모델 전환즉, Encoder + Decoder 통합 구조로 전환 전통(Conventional) 방식: 매우 복잡했습니다. 음성을 자르는 VAD, 소리를 발음 기호로 바꾸는 AM(음향 모델), 발음 기호를 단어로 바꾸는 LM(언어 모델) 등 여러 모델을 따로 학습시켜 조합 2. 트랜스포머 인코더 학습시킴. CTC, AD(Attention Decoder), RNN-Transducer 등 여러 E2E 구조가 있다.어떤 방식을 쓰든, 음성을 이해하는 **'트랜스포머 인코더'**를 공통으로 사용하며, 이 인코더를 잘 학습시키는 것이 핵심E2E 모델은 '음성-텍스트' 쌍으로 된 데이터가..
논문 구현에 앞서 확인해야 할 포인트Read논문 제목(title)과 초록(abstract), 도표(figures) 읽기도입(introduction), 결론(conclusion), 도표(figures)를 읽고 필요없는 부분 생략수식은 처음 읽을 때는 과감하게 생략이해가 안되는 부분은 빼고 전체적으로 읽는다.QnA저자가 뭘 해내고 싶어했는가?이 연구의 접근에서 중요한 요소는 무엇인가?당신(논문독자)는 스스로 이 논문을 이용할 수 있는가?당신이 참고하고 싶은 다른 레퍼런스에는 어떤 것이 있는가?구현하기수식 이해하고 직접 연산하기코드 연습하기(오픈소스를 받아 직접 구현)Read1단계: 제목, 초록, 도표 읽기제목: "PaddleOCR-VL: Boosting Multilingual Document Parsing ..
개발 공부는 2022년, 군대 전역할떄부터 해왔으니,오늘로서 대략 3년 반.AI 공부를 머신러닝, 논문들부터 독학한지는 2년 반 정도이고,해커톤으로부터 대략 1년, AI PoC 개발자로서 일하게 된지 10달째가 다 되어간다. 2024년부터 많이 바뀌면서, 단순 코딩에서 바이브 코딩으로 진화한 AI 개발 인생이지만, 결국 얻은 것도 많다.근무하면서 정말 현업에서 깨달은 것들이 많다. PoC 개발자인만큼, 프론트엔드부터 백엔드, DB, 클라우드, AI 설정까지 모두 다루게 되었는데,단순히 아키텍처 설계 뿐만 아니라, 시니어들의 사고를 뭔가 엿볼 수 있는 만큼의 영역에는 조금 들어온 것 같다. 그래서 그냥 나중에 다시 돌아보면 좋을것 같아서 일단 적어둬 보려고 한다. 1. 제품을 만드는 것과 연구를 하는 것,..