항상 시작은 CRISP-DM 과제를 수행할 때 기본 프로세스 - 이 방법론의 기초에서 일을 하게 될 가능성이 높다. 비지니스 이해 데이터 이해 -> 데이터 평가 모델링 -> 평가 -> 배포 평가 -> 비지니스 이해 비지니스 이해 단계는 문제를 정의하는 단계. 회사에서 무엇을 기대하는 가? 회사의 문제를 해결하는 지를 기대하는 것이다. 데이터 분석, 모델링을 가지고 문제를 해결하는 것 1단계 데이터 분석 기본 구조가 2차원 수치하고 범주 기본 분석 단위 - 행 범주는 그룹을 짓는 것 - 공통된 특징 x : feature 독립변수 y : target, label 종속변수 분석 단위 : 샘플,관측치, 인스턴스(헷갈릴 수 있다), data point 한 행이 시간 단위로 쌓여있어야 한다. numpy 수치 연산,..
목표 이상치의 정의를 설명할 수 있다. 이상치를 판단하는 방법을 설명할 수 있다. 파이썬을 활용하여 이상치를 처리할 수 있다. 이상치(Outlier) 관측된 데이터 내 전체적 패턴에서 아주 작게, 혹은 아주 크게 벗어난 값 데이터 분석 결과 및 의사 결정에 왜곡을 일으킬 수 있다. 이상치의 유형 오류 데이터 - 센서나 시스템 오류로 잘못된 값을 수집한 경우 실제 데이터 - 실제 데이터가 맞지만, 극단적인 관측으로 인해 일반적인 관측 범위를 벗어난 경우(허리케인, 폭설 등) 평균 연봉에 포함되는 마이클 조던 - 이상치 현업에서는 잘못된 데이터인지 아닌지 구분하기 쉽지 않다. 그래서 데이터가 보여주는 현상에 대해서 의문을 가지고 전문가와 의논해봐야 한다. 이상치 처리 프로세스 통계적 방안 - 데이터 관점의 ..