티스토리 뷰
반응형
llama 3 blosom 모델 파인튜닝
https://huggingface.co/MLP-KTLim/llama-3-Korean-Bllossom-8B
train.csv에 대해서 Q/A 학습 후
test.csv Q로 추론
temprature 0.7(창의적이면 오히려 더 나을까? 라는 논리로 적용)
베이스라인 0.24 -> 0.33
두번째 파인튜닝
-> 템프리처 0.5, top_p = 0.5
보통 채팅으로 추론
중복을 줄이기 위해서 config 조절
with torch.no_grad():
outputs = model.generate(
**inputs,
max_new_tokens=256, # 최대 토큰 수 제한
temperature=0.5, # 낮출수록 더 결정적인 출력
top_p=0.5, # 높은 확률의 토큰만 선택
repetition_penalty=1.2, # 반복 억제
no_repeat_ngram_size=3, # n-gram 반복 방지
early_stopping=True # 조기 종료
)
베이스라인 0.24 -> 0.355
반응형