논문 구현에 앞서 확인해야 할 포인트Read논문 제목(title)과 초록(abstract), 도표(figures) 읽기도입(introduction), 결론(conclusion), 도표(figures)를 읽고 필요없는 부분 생략수식은 처음 읽을 때는 과감하게 생략이해가 안되는 부분은 빼고 전체적으로 읽는다.QnA저자가 뭘 해내고 싶어했는가?이 연구의 접근에서 중요한 요소는 무엇인가?당신(논문독자)는 스스로 이 논문을 이용할 수 있는가?당신이 참고하고 싶은 다른 레퍼런스에는 어떤 것이 있는가?구현하기수식 이해하고 직접 연산하기코드 연습하기(오픈소스를 받아 직접 구현)Read1단계: 제목, 초록, 도표 읽기제목: "PaddleOCR-VL: Boosting Multilingual Document Parsing ..
개발 공부는 2022년, 군대 전역할떄부터 해왔으니,오늘로서 대략 3년 반.AI 공부를 머신러닝, 논문들부터 독학한지는 2년 반 정도이고,해커톤으로부터 대략 1년, AI PoC 개발자로서 일하게 된지 10달째가 다 되어간다. 2024년부터 많이 바뀌면서, 단순 코딩에서 바이브 코딩으로 진화한 AI 개발 인생이지만, 결국 얻은 것도 많다.근무하면서 정말 현업에서 깨달은 것들이 많다. PoC 개발자인만큼, 프론트엔드부터 백엔드, DB, 클라우드, AI 설정까지 모두 다루게 되었는데,단순히 아키텍처 설계 뿐만 아니라, 시니어들의 사고를 뭔가 엿볼 수 있는 만큼의 영역에는 조금 들어온 것 같다. 그래서 그냥 나중에 다시 돌아보면 좋을것 같아서 일단 적어둬 보려고 한다. 1. 제품을 만드는 것과 연구를 하는 것,..
새로운 주제로 다시 시작된 흥미 유발 프로젝트이다. Dense 모델은 많이들 Vision이 붙어서 나오기에, 필자가 알고 싶었던 건.MoE 모델도 과연 Vision Encoder를 달았을 때, 그만큼의 제대로 된 성능이 나오느냐가 관건이었다. 당연히 파라미터나 GPU 자원상 MoE 전체를 다 학습시킬 수는 없기에, 필자가 사용한 방법은 Adapter이다. 이 방법은 생각보다 간편한데, Layer Projection을 시키기 때문에, 한마디로 레이어 납땜질을 통해서 Vision 인코더를 어느 LLM 모델에도 붙일 수 있다는 장점이 있다. 실제로 Qwen 시리즈의 VL 버전들이 대부분 다 이런 방식을 사용한다.아직 Qwen 3는 VL이 나오지 않았으니, 선행할 겸 시도해본다. 준비물오늘 실험에 사용할 모델은..
Text to Speech. 일명 TTS.문자 그대로 텍스트를 소리로 바꿔주는 기술이라고 보면 된다. TTS는 멜 스펙트로그램을 사용한다. 그럼 멜 스펙스토그램은 무엇인가? 멜 스펙트로그램 멜 스펙트로그램은, 대부분 n_mel = 80으로 표현되는데, 이는 [0,0,0,0,0....] 해서 80개의 에너지를 가지고 있는 리스트와 같다.이 글에서는 이걸 에너지 리스트라고 부르겠다. 에너지 리스트는 각각의 차원이 Hz를 의미한다.그리고, 인간의 가청 주파수가 20000 Hz 이기 때문에, 대부분 8000 Hz까지를 쓴다.그렇다고 해서 100 Hz 씩 가지는 건 아니고, 에너지 리스트 각 하나의 값은 비선형 분할이 된다. 즉, 에너지 리스트가 [0.01,0.02,0.03,0.04....0.8]이라면, 대략적으..
오늘은 지난 포스팅에 이어, 강화학습 제 2탄이다. 2025.07.26 - [프로젝트] - [강화학습] LLM 강화학습 / GRPO 시도 1 - Qwen3 4B base 지난 포스팅에서는, 맛보기로 Qwen3-4B를 테스팅했다. 그러나 솔직히 Qwen3-4B로는 강화학습의 오차가 매우 커서, 체감이 없다시피 하고, 실험의 결과도 유의미하지 않다고 판단, 빌리언 수를 늘렸다.그래서 Qwen3-14B, bf16으로 늘렸다. 32B도 하고 싶었지만, GPU가 굉장히 많이 든다.모델 로딩에만 기본 14B*2 = 28GB에다가, num_generation당 거의 14B. 그래서 최대한도인 num_generation 3으로 시도했다. 결과를 보기 전에, 지난번에 말했던 이 실험의 가설과, 알아낼 목적을 다시 상기시..
최근 한국형 LLM에 꽂혀서, 이번 주말에는 강화학습을 직접 실험해보기로 했다.왜냐하면, 엑사원의 실험 결과를 보고 왜인지 흥미가 당겼기 때문. 흔히들 강화학습은 '모델의 내면 데이터'를 끌어올린다고 알고 있는데, 그건 '추론'이 더 가깝고, 사실 강화학습은 파블로브의 개를 만드는 실험에 가깝다. 어떠한 보상 정책 함수를 결정하고, 그 결정 함수에 따라 대답을 '유도'해주는 것이 되시겠다.그 중에서도 GRPO는 Deepseek 모델에서 사용한 방법으로, 샘플링을 한 후, 그 샘플링을 그룹화하여 평가하는 걸 의미한다.왜 그룹화 하는지가 중요하다. 강화학습을 할 때 무조건 1개의 결과만 평가하게 된다면, 그 모델은 어떠한 쿼리가 들어왔을 때, 그 결과만 내뱉게 된다.즉, 파블로브의 개가 종이 울리면 무조건 ..