티스토리 뷰

반응형

kaggle의 사용법을 아주 잘 알려주는 책을 정리해보았다.

 

https://goldenrabbit.co.kr/2022/05/10/%ec%ba%90%ea%b8%80-%ec%95%88%eb%82%b4%ec%84%9c-%ec%ba%90%ea%b8%80-%ec%9d%b4%eb%a0%87%ea%b2%8c-%ec%8b%9c%ec%9e%91%ed%95%98%ec%84%b8%ec%9a%94/

 

[캐글 안내서] ❷ 캐글, 이렇게 시작하세요 - 골든래빗

데이터 과학자를 위한 놀이터라고 불리는 캐글의 사용 설명서입니다. 캐글 가입부터 각 메뉴와 기능뿐 아니라 경진대회를 찾고 모델을 제출하고 평가받는 전 과정을 누구나 따라할 수 있게 쉽

goldenrabbit.co.kr

 

한국어로 되어 있고, 정말 친절하고 자세하게 나와 있어서 강추. 광고 아니다 뭐 떨어지는 거 없다.

데이터 사이언티스트를 꿈꾸거나 머신러닝/딥러닝 꿈나무라면 무조건 읽어야 할 책이다. 찾아보니 밀리의 서재에도 있어서, 밀리의 서재에서라도 읽는다면 아주 좋을 듯.

 

아래부터는 3장의 머신러닝 문제해결 프로세스에 대한 내 필기 노트이다.

 

머신러닝 대회는 정형 데이터(엑셀, CSV와 같이 표 형태로 구성된 데이터)를 다루는 대회.

딥러닝 대회는 비정형 데이터(이미지, 음성, 텍스트 등)을 다루는 대회.

 

학습 순서는 머신러닝 이나 딥러닝이나 문제해결 프로세스를 익히고, 체크리스트로 체크하는 식.

 

머신러닝 문제해결 프로세스

문제(경진대회) 이해 - 배경, 목젹, 유형 등 / 평가지표 파악

탐색적 데이터 분석 - 데이터 구조 탐색 / 데이터 시각화(중요 피처 파악)

베이스라인 모델 - (선택)피처 엔지니어링 / 모델 훈련 및 성능 검증 / 결과 예측 및 제출

성능 개선 - 피처 엔지니어링 / 하이퍼파라미터 최적화 / 성능 검증 / 결과 예측 및 제출

 

코딩테스트와 같으나, 데이터를 잘 정제해서 시각화 하는 것과 모델을 훈련시키는 과정이 다르다.

캐글은 전처리가 이루어진 데이터를 제공하므로 책에서는 전처리 단계를 따로 구분해 설명하지 않는다.

 

성능 개선은 여러가지 모델을 시도하거나, 데이터 자체를 가공.

 

 

머신러닝 문제해결 프로세스 세부사항

 

문제 이해 - 어떤 데이터로 어떤 값을 예측해야 하는지

평가지표 파악 - 평가에 따라 등수 갈림

 

데이터 구조 탐색 - 주어진 데이터를 간단히 훑어보거나 통계 구해보기.

데이터 시각화 - 막대 그래프, 박스플롯, 포인트플롯, 바이올린플롯, 산점도, 히트맵, 파이차트 등의 그래프 활용.

어떤 피쳐(변수)가 중요한지에 대해 인사이트를 얻는 과정

 

모델 훈련 및 성능 검증- 기본 모델이 일단 있어야 최적화 후 비교 가능 / 필요에 따라 간단한 피쳐 엔지니어링. 성능신경 X 

결과 예측 및 제출: 테스트 데이터 활용

 

피처 엔지니어링 - 이상치 제거, 결측값 처리, 데이터 인코딩, 피쳐 스케일링, 파생 피쳐 생성, 피쳐 제거 및 선택 등을 수행.

타깃값 예측에 도움되는 새로운 피쳐를 만들기도 한다. 창의력이 필요. 주어진 피쳐를 결합하거나 변형해야 함.

이상치나 결측값은 적절히 처리, 필요하면 인코딩이나 스케일링.

 

하이퍼 파라미터 최적화 - 하이퍼 파라미터 튜닝. 가능한 범위 내에서 최선의 하이퍼 파라미터 값을 찾는게 중요.

그리드서치, 랜덤서치, 베이지안 최적화

 

성능 검증 - 일반화 성능 평가 / validation 데이터를 나눈 다음 validation 데이터는 놔두고 나머지를 훈련시켜서 나중에 성능 평가.

 

교차 검증 - 데이터를 여러 그룹으로 나누서 훈련 / 이에 대해서는 미시간 딥러닝 03강~04강 참조.

 

결과 예측 및 제출. 결과는 여러가지를 제출할 수 있고, 그 중에서 최종 버전 2개를 선택 가능.

프라이빗 성능이 가장 좋을거라고 생각하는 2개를 최종으로 선택

반응형