티스토리 뷰

반응형

llama 3 blosom 모델 파인튜닝

 

https://huggingface.co/MLP-KTLim/llama-3-Korean-Bllossom-8B

 

train.csv에 대해서 Q/A 학습 후

test.csv Q로 추론

 

temprature 0.7(창의적이면 오히려 더 나을까? 라는 논리로 적용)

 

베이스라인 0.24 -> 0.33

 

두번째 파인튜닝

-> 템프리처 0.5, top_p = 0.5

보통 채팅으로 추론

중복을 줄이기 위해서 config 조절

with torch.no_grad():
         outputs = model.generate(
            **inputs,
            max_new_tokens=256,  # 최대 토큰 수 제한
            temperature=0.5,     # 낮출수록 더 결정적인 출력
            top_p=0.5,           # 높은 확률의 토큰만 선택
            repetition_penalty=1.2,  # 반복 억제
            no_repeat_ngram_size=3,  # n-gram 반복 방지
            early_stopping=True  # 조기 종료
        )

 

베이스라인 0.24 -> 0.355

 

 

 

반응형