목표 탐색적 데이터 분석을 정의할 수 있다. 파이썬을 활용하여 일변량 데이터를 비시각화할 수 있다. 범주형 데이터 유형, 연속형 데이터 유형별로 구분하여 학습 탐색적 데이터 분석(Exploratory Data Analysis) 데이터를 다양한 측면에서 바라보고 이해하는 과정 ->데이터가 보여주는 현상을 이해한다 통계적 요약, 분포 파악 및 시각화 등의 기법을 통해 직관적으로 데이터 특성 파악 데이터 분석과정에서 이해 관계를 제대로 수행하는 건 모델링만큼이나 중요한 과정 단순 통계학 지표는 한계점이 있다. 사전에 발견하지 못한 패턴과 현상을 발견하여 유의미한 인사이트 도출 EDA 기본 개요 속성 파악과 관계 파악 속성 파악 분석 목적에 맞는 데이터가 준비되어 있는지, 그리고 데이터가 올바르게 적제되어 있는..
목표 특성 선택의 정의 및 목적을 설명할 수 있다. 특징 선택의 방안을 3가지로 구분할 수 있다. 특징 선택(Featrue Selection) 가장 좋은 성능을 보여줄 수 있는 데이터의 부분 집합(Subset)을 찾아내는 방법 모델 생성에 밀접한 데이터의 부분 집합을 선택하여 연산 효율성 및 모델 성능을 확보 피처 엔지니어링의 주요 토픽이면서 많이 활용되는 기법 목적 및 필요성 연산효율성 특징 생성과는 다르게 원 데이터 공간 내 유의미한 특징을 선택하는 기법 연산 효율 및 적절한 특징을 찾기 위해서 수행한다. 원본 데이터에서 가장 유용한 특징만을 선택하여 간단한 모델 구성 및 성능 확보가 목적 특징 선택 방안 필터 특징들에 대한 통계적 점수를 부여하여 순위를 매기고 선택하는 방법론 실행속도가 빠르다는 측..
목표 이상치의 정의를 설명할 수 있다. 이상치를 판단하는 방법을 설명할 수 있다. 파이썬을 활용하여 이상치를 처리할 수 있다. 이상치(Outlier) 관측된 데이터 내 전체적 패턴에서 아주 작게, 혹은 아주 크게 벗어난 값 데이터 분석 결과 및 의사 결정에 왜곡을 일으킬 수 있다. 이상치의 유형 오류 데이터 - 센서나 시스템 오류로 잘못된 값을 수집한 경우 실제 데이터 - 실제 데이터가 맞지만, 극단적인 관측으로 인해 일반적인 관측 범위를 벗어난 경우(허리케인, 폭설 등) 평균 연봉에 포함되는 마이클 조던 - 이상치 현업에서는 잘못된 데이터인지 아닌지 구분하기 쉽지 않다. 그래서 데이터가 보여주는 현상에 대해서 의문을 가지고 전문가와 의논해봐야 한다. 이상치 처리 프로세스 통계적 방안 - 데이터 관점의 ..
목표 결측치의 정의 설명 결측치의 발생 원인 설명 파이썬을 활용하여 결측치 처리 결측치 데이터가 수집되지 않거나 누락되어 정보가 존재하지 않는 값. 결측치가 포함된 데이터는 모델 학습이 불가능(결측치 자체를 하나의 카테고리로 보는 경우 제외) 되도록 사전에 반드시 결측치 처리 결측치 발생 원인 대부분 수집 및 관리 과정에서 결측치가 발생한다. 미수집 - 미 입력된 데이터 시스템 오류 - 오류에 의해 누락(장치, 센서 오류) 신규 항목 - 새롭게 수집 및 저장하는 항목의 추가 결측치 처리 방안 제거하거나 대체하는 방법이 있다. 제거 : 가장 쉽지만 데이터 손실 대체: 최대한 많은 데이터를 활용하지만 편향 발생 *필자 추가 : 결측치 자체를 하나의 카테고리로 보는 방법도 있다. 결측치가 다른 값들에 비해 너..
목표 시계열 자료의 특징을 이해하고 설명할 수 있다. Pandas를 이용하여 시계열 데이터를 조작할 수 있다. Pandas의 dataframe이 제공하는 시각화 메소드를 이용하여 시계열 데이터를 시각화할 수 있다. 시계열 데이터란? 순차적인 시간의 흐름으로 기록된 관측치의 집합 시계열 데이터는 고정된 시간 구간으로 나타나야 한다. (일별 데이터는 일별 데이터로만, 월별 데이터는 월별 데이터로만 구성되어야 한다) 시계열의 특징 1. 시간의 순차적인 흐름 2. 고정된 시간 구간의 관측치 > 월별 데이터로 관측되었다가 시간대별로 바뀌면 안된다. 즉, 하나의 카테고리로 완벽하게 분류되어야 한다. Datetimeindex 자료형을 사용한다 년,월, 일 -> 문자열 변환 Datetimeindex = pd.to_da..
1. 목표 pandas의 groupby 함수를 활용하여 데이터의 그룹화 실현 집계 함수 및 정력 함수를 사용하여 그룹 데이터의 특성 요약 데이터 그룹화를 하는 이유 특정 데이터 그룹의 특징에 대한 정보를 얻을 수 있어서다. A,B,C 라는 Key 값으로 분류한다 -> A,B,C 에 있는 공동적인 Value 값 도출 groupby 메소드 pandas의 groupby 메소드는 열, 열의 리스트 또는 행 인덱스를 기준으로 그룹화를 진행시켜준다. groupby 연산 결과로 Groupby 객체를 반환한다. Groupby 객체에는 그룹연산 메소드가 내장되어 있다. Group By -> Method(sum,mean,median,std/var,count,min/max) -> Aggregation(통계적 특징 도출) 사..