본문 바로가기 메뉴 바로가기

시카로의 공부방

프로필사진
  • 글쓰기
  • 관리
  • 태그
  • 방명록
  • RSS

시카로의 공부방

검색하기 폼
  • 분류 전체보기 (453)
    • 프로젝트 (26)
      • kaggle & Dacon (43)
      • 에이블스쿨 (21)
    • 프로그래밍 공부 (154)
      • 컴퓨터 구조 & 운영체제 (15)
      • 자료구조 (3)
      • 알고리즘 (10)
      • 데이터베이스 & SQL (18)
      • SpringBoot (9)
      • 에이블스쿨 (86)
      • 버그일지(QA) (8)
    • 데이터 사이언스 & 로봇 (130)
      • 강화학습(RL) (5)
      • ML 및 DL 관련 이론 (57)
      • 데이터 분석 (24)
      • ROS (44)
    • 코딩테스트 (70)
      • python (4)
      • C++ (1)
      • 백준 (59)
      • 프로그래머스 (3)
      • softeer (0)
    • 서비스 기획 (1)
    • 인생일지 (6)
  • 방명록

전체 글 (453)
[vLLM] KV Cache와 히트율에 대한 이해

vLLM은 파이썬 서빙 라이브러리 중에서도 매우 빠른 라이브러리로 꼽힌다. 이번에 사내에서 자체적으로 구동되는 VLM이 너무 느려서(Python 기반), vLLM 포팅 프로젝트를 혼자 진행하면서 vLLM 라이브러리를 구조를 전부 뜯어보았다.그러면서 LLM Decoding에 대해 굉장히 이해가 높아졌는데, 그 과정을 글로 남기려고 한다. 그 내부구조를 살펴보면, 단순히 Predict 버전들을 C++로 포팅했다 정도가 아니라, 굉장히 광범위한 기술을 가지고 있는데,지금부터 vLLM의 대표적인 기술인 KV Cache와, 그와 관련되어 추가로 따라오는 히트율에 대해서 설명해보겠다. 1. KV Cache란? KV Cache에 대해서 이해하기 위해서는, 먼저 LLM이 어떻게 Decoding되는지에 대한 과정을 생..

데이터 사이언스 & 로봇/ML 및 DL 관련 이론 2025. 12. 6. 21:18
[GPU] 모델 메모리 관리

동시성 처리 문제 모델이 Threadsafe하지 않을때파이프라인의 결과 품질이 결과가 달라질 수 있다. 싱글톤 인스턴스를 쓸 수는 있으나, 메모리 누수가 생길 위험 존재.싱글톤 + Threadpool로 격리가 최선 그러면서 Vram의 메모리를 완전 요청마다 해제해준다(2중 보안). 조금 느릴 수 있지만 안정성을 챙겨간다.

프로그래밍 공부/버그일지(QA) 2025. 12. 6. 11:16
[MCP] Claude의 Memory Tool 관련 분석 및 구현 결과

https://platform.claude.com/docs/en/agents-and-tools/tool-use/memory-tool 모든 Agent들의 문제점은, Turn이 많아질수록, Memory에 쌓이는 Context가 많아진다는 점이다.그리고, 그렇게 쌓인 메모리는 Context에 대해서 할루시네이션 현상을 보이게 된다. Claude SDK에 있는 Memory tool은 이를 어떻게 극복하였는지, Claude Code의 SDK 코드를 뜯어보면 알 수 있다. 단순하게 압축으로 보일 수 있지만, Claude 4.5 Sonnet은 굉장히 똑똑하게 학습된 모델이다. MCP Tool 관련으로 자동적으로 툴을 Aware 하게 되어 있다. 그 점을 활용한 대표적인 Tool이 Memory 툴이라고 볼 수 있다. ..

프로젝트 2025. 11. 27. 20:52
[STT] 클로바 노트 NEST 엔진 분석

https://www.youtube.com/watch?v=bQ3JHj1rOSQ 1. 전통적인 구조를 버리고, 2023년에 E2E 모델 전환즉, Encoder + Decoder 통합 구조로 전환 전통(Conventional) 방식: 매우 복잡했습니다. 음성을 자르는 VAD, 소리를 발음 기호로 바꾸는 AM(음향 모델), 발음 기호를 단어로 바꾸는 LM(언어 모델) 등 여러 모델을 따로 학습시켜 조합 2. 트랜스포머 인코더 학습시킴. CTC, AD(Attention Decoder), RNN-Transducer 등 여러 E2E 구조가 있다.어떤 방식을 쓰든, 음성을 이해하는 **'트랜스포머 인코더'**를 공통으로 사용하며, 이 인코더를 잘 학습시키는 것이 핵심E2E 모델은 '음성-텍스트' 쌍으로 된 데이터가..

데이터 사이언스 & 로봇/ML 및 DL 관련 이론 2025. 11. 16. 20:02
[논문 구현 6탄] PaddleOCR-VL: Boosting Multilingual Document Parsing via a 0.9B Ultra-Compact Vision-Language Model

논문 구현에 앞서 확인해야 할 포인트Read논문 제목(title)과 초록(abstract), 도표(figures) 읽기도입(introduction), 결론(conclusion), 도표(figures)를 읽고 필요없는 부분 생략수식은 처음 읽을 때는 과감하게 생략이해가 안되는 부분은 빼고 전체적으로 읽는다.QnA저자가 뭘 해내고 싶어했는가?이 연구의 접근에서 중요한 요소는 무엇인가?당신(논문독자)는 스스로 이 논문을 이용할 수 있는가?당신이 참고하고 싶은 다른 레퍼런스에는 어떤 것이 있는가?구현하기수식 이해하고 직접 연산하기코드 연습하기(오픈소스를 받아 직접 구현)Read1단계: 제목, 초록, 도표 읽기제목: "PaddleOCR-VL: Boosting Multilingual Document Parsing ..

데이터 사이언스 & 로봇/ML 및 DL 관련 이론 2025. 10. 22. 11:15
[돌아보기] 개발자로서 성장하는 원칙

개발 공부는 2022년, 군대 전역할떄부터 해왔으니,오늘로서 대략 3년 반.AI 공부를 머신러닝, 논문들부터 독학한지는 2년 반 정도이고,해커톤으로부터 대략 1년, AI PoC 개발자로서 일하게 된지 10달째가 다 되어간다. 2024년부터 많이 바뀌면서, 단순 코딩에서 바이브 코딩으로 진화한 AI 개발 인생이지만, 결국 얻은 것도 많다.근무하면서 정말 현업에서 깨달은 것들이 많다. PoC 개발자인만큼, 프론트엔드부터 백엔드, DB, 클라우드, AI 설정까지 모두 다루게 되었는데,단순히 아키텍처 설계 뿐만 아니라, 시니어들의 사고를 뭔가 엿볼 수 있는 만큼의 영역에는 조금 들어온 것 같다. 그래서 그냥 나중에 다시 돌아보면 좋을것 같아서 일단 적어둬 보려고 한다. 1. 제품을 만드는 것과 연구를 하는 것,..

인생일지 2025. 10. 5. 21:13
이전 1 2 3 4 ··· 76 다음
이전 다음

Blog is powered by Tistory / Designed by Tistory

티스토리툴바