티스토리 뷰

반응형

목적 정의

->기업 활동에서 쌓인 데이터로 무엇을 할 수 있는가?

 

데이터 수집

데이터가 어디에 있는지를 알아야 한다.

회사 내부, 외부, 웹스크랩, 제휴 기업, 공공 데이터 등

데이터 출처를 두루 알고 있어야 한다.

 

대부분 자신이 속한 조직에 무슨 데이터가 있는지 모른다.

 

데이터 전처리(EDA)

Raw Data를 가공(labeling)

 

주제에 맞는 데이터 부분 선택 및 변수 변환/ 추가.

 

탐색적 데이터 분석을 통해 수행한다.

 

데이터 학습(분석)

처음에 베이스라인 모델을 잡고, 예측 및 결과 도출을 한다.

성능 개선을 위해 전처리 단계나 데이터 수집 단계로 돌아가서 반복하며, 알고리즘을 개선하여 성능 개선을 이루어낸다.

 

 

캐글 경진대회의 경우 목적 정의와 데이터 수집의 절차가 건너뛰어진다.

 

각 단계의 고급 스킬은 2편에서 정리

반응형