티스토리 뷰
반응형
경진대회 이해 -> 탐색적 데이터 분석 -> 베이스라인 모델 제작 -> 성능 개선 순서
경진대회 이해 - 대회의 취지와 문제 유형 파악 및 평가지표 확인
탐색적 데이터 분석 - 시각화를 포함한 각종 기법을 동원해 데이터를 부넉하여 피쳐 엔지니어링과 모델링 전략 수립
베이스라인 모델 - 기본 모델 제작. 유사한 문제를 풀 때 업계에서 흔히 쓰는 모델이나 직관적으로 떠오르는 모델 선택
성능 개선 - 베이스 라인 모델보다 더 나은 성능을 목표로 각종 최적화 진행
타깃값이 정규분포에 가까울수록 회귀 모델의 성능이 좋아진다.
로그변환하면 정규분포에 가까워지고, 결과값을 지수변환하면 원래 타깃값 형태로 복원된다(타깃값 변환).
훈련 데이터에서 이상치를 제거하면 일반화 성능이 좋아진다.(이상치 제거)
기존 피처를 분해/조합하여 모델링에 도움되는 새로운 피처 추가 (파생 피처 추가)
반대로 불필요한 피처 제거 (피처 제거)
선형 회귀, 릿지, 라쏘는 너무 기본적이라 실전에서 못쓴다.
랜덤 포레스트는 여러 모델을 묶어 대체로 더 나은 성능을 이끌어내는 간단하고 유용한 모델
그리드 서치는 교차 검증으로 최적의 하이퍼파리머 값을 찾아주는 기법.
반응형