티스토리 뷰
반응형
목적 정의
->기업 활동에서 쌓인 데이터로 무엇을 할 수 있는가?
데이터 수집
데이터가 어디에 있는지를 알아야 한다.
회사 내부, 외부, 웹스크랩, 제휴 기업, 공공 데이터 등
데이터 출처를 두루 알고 있어야 한다.
대부분 자신이 속한 조직에 무슨 데이터가 있는지 모른다.
데이터 전처리(EDA)
Raw Data를 가공(labeling)
주제에 맞는 데이터 부분 선택 및 변수 변환/ 추가.
탐색적 데이터 분석을 통해 수행한다.
데이터 학습(분석)
처음에 베이스라인 모델을 잡고, 예측 및 결과 도출을 한다.
성능 개선을 위해 전처리 단계나 데이터 수집 단계로 돌아가서 반복하며, 알고리즘을 개선하여 성능 개선을 이루어낸다.
캐글 경진대회의 경우 목적 정의와 데이터 수집의 절차가 건너뛰어진다.
각 단계의 고급 스킬은 2편에서 정리
반응형