
새로운 주제로 다시 시작된 흥미 유발 프로젝트이다. Dense 모델은 많이들 Vision이 붙어서 나오기에, 필자가 알고 싶었던 건.MoE 모델도 과연 Vision Encoder를 달았을 때, 그만큼의 제대로 된 성능이 나오느냐가 관건이었다. 당연히 파라미터나 GPU 자원상 MoE 전체를 다 학습시킬 수는 없기에, 필자가 사용한 방법은 Adapter이다. 이 방법은 생각보다 간편한데, Layer Projection을 시키기 때문에, 한마디로 레이어 납땜질을 통해서 Vision 인코더를 어느 LLM 모델에도 붙일 수 있다는 장점이 있다. 실제로 Qwen 시리즈의 VL 버전들이 대부분 다 이런 방식을 사용한다.아직 Qwen 3는 VL이 나오지 않았으니, 선행할 겸 시도해본다. 준비물오늘 실험에 사용할 모델은..
Text to Speech. 일명 TTS.문자 그대로 텍스트를 소리로 바꿔주는 기술이라고 보면 된다. TTS는 멜 스펙트로그램을 사용한다. 그럼 멜 스펙스토그램은 무엇인가? 멜 스펙트로그램 멜 스펙트로그램은, 대부분 n_mel = 80으로 표현되는데, 이는 [0,0,0,0,0....] 해서 80개의 에너지를 가지고 있는 리스트와 같다.이 글에서는 이걸 에너지 리스트라고 부르겠다. 에너지 리스트는 각각의 차원이 Hz를 의미한다.그리고, 인간의 가청 주파수가 20000 Hz 이기 때문에, 대부분 8000 Hz까지를 쓴다.그렇다고 해서 100 Hz 씩 가지는 건 아니고, 에너지 리스트 각 하나의 값은 비선형 분할이 된다. 즉, 에너지 리스트가 [0.01,0.02,0.03,0.04....0.8]이라면, 대략적으..

오늘은 지난 포스팅에 이어, 강화학습 제 2탄이다. 2025.07.26 - [프로젝트] - [강화학습] LLM 강화학습 / GRPO 시도 1 - Qwen3 4B base 지난 포스팅에서는, 맛보기로 Qwen3-4B를 테스팅했다. 그러나 솔직히 Qwen3-4B로는 강화학습의 오차가 매우 커서, 체감이 없다시피 하고, 실험의 결과도 유의미하지 않다고 판단, 빌리언 수를 늘렸다.그래서 Qwen3-14B, bf16으로 늘렸다. 32B도 하고 싶었지만, GPU가 굉장히 많이 든다.모델 로딩에만 기본 14B*2 = 28GB에다가, num_generation당 거의 14B. 그래서 최대한도인 num_generation 3으로 시도했다. 결과를 보기 전에, 지난번에 말했던 이 실험의 가설과, 알아낼 목적을 다시 상기시..
최근 한국형 LLM에 꽂혀서, 이번 주말에는 강화학습을 직접 실험해보기로 했다.왜냐하면, 엑사원의 실험 결과를 보고 왜인지 흥미가 당겼기 때문. 흔히들 강화학습은 '모델의 내면 데이터'를 끌어올린다고 알고 있는데, 그건 '추론'이 더 가깝고, 사실 강화학습은 파블로브의 개를 만드는 실험에 가깝다. 어떠한 보상 정책 함수를 결정하고, 그 결정 함수에 따라 대답을 '유도'해주는 것이 되시겠다.그 중에서도 GRPO는 Deepseek 모델에서 사용한 방법으로, 샘플링을 한 후, 그 샘플링을 그룹화하여 평가하는 걸 의미한다.왜 그룹화 하는지가 중요하다. 강화학습을 할 때 무조건 1개의 결과만 평가하게 된다면, 그 모델은 어떠한 쿼리가 들어왔을 때, 그 결과만 내뱉게 된다.즉, 파블로브의 개가 종이 울리면 무조건 ..

헥사곤 테스트 비디오를 재생할 수 없습니다."> 비디오를 재생할 수 없습니다. 공은 튕겨져 나갔다. 테스트를 대신 해주셨다.170GB 모델(q2) 돌리는데사용 Ram =44GB Vram +180GB ram 분명 좋긴 하다. 현재 무료인 Openrouter에서 비양자화로 쓰면서, Cline을 돌렸을 때 이정도 퀄리티의 결과가 나왔다. 약간약간 다른 점이 있긴 하지만, 퀄리티 자체는 괜찮은 정도 Kimi-k2는 특성상 한국말을 제대로 못 알아듣기 때문에, 한국어적으로 Agentic을 쓸 수 있는 오픈소스가 드디어 나왔다는 느낌이다. 요즘에 진짜 LLM들 진화가 많이 나와서 즐겁다. 빨리 주말이 왔으면. 파인튜닝 테스트가 너무 기대된다.

https://www.youtube.com/watch?v=VL4PjzSb1Xo 32b 짜리 모델임에도, 굉장히 좋은 모습을 보였다는 엑사원이다.위 영상의 자체 벤치마크지만, Solar pro 2가 75점인데 반해, 82점을 취득했다는 거는 확실히 눈여겨 볼만 했다. 레이어의 경우에는 별게 없다.64개의 어텐션 레이어를 썼다. 각각을 해석하면 아래와 같다. 레이어별 분석1. 임베딩 레이어model.embed_tokens.weight [102400, 5120]역할: 입력 토큰을 벡터로 변환크기: 102,400개 토큰 × 5,120차원특징: 상당히 큰 어휘 사전을 가진 모델2. 트랜스포머 레이어들 (총 64개 레이어)각 레이어마다 다음 구조가 반복됩니다:MLP (Multi-Layer Perceptron) 블..