티스토리 뷰

반응형

목표 

탐색적 데이터 분석을 정의할 수 있다.

파이썬을 활용하여 일변량 데이터를 비시각화할 수 있다.

 

범주형 데이터 유형, 연속형 데이터 유형별로 구분하여 학습

 

탐색적 데이터 분석(Exploratory Data Analysis)

데이터를 다양한 측면에서 바라보고 이해하는 과정

->데이터가 보여주는 현상을 이해한다

 

통계적 요약, 분포 파악 및 시각화 등의 기법을 통해 직관적으로 데이터 특성 파악

 

데이터 분석과정에서 이해 관계를 제대로 수행하는 건 모델링만큼이나 중요한 과정

단순 통계학 지표는 한계점이 있다.

사전에 발견하지 못한 패턴과 현상을 발견하여 유의미한 인사이트 도출

 

EDA 기본 개요

 

속성 파악과 관계 파악

 

속성 파악

  • 분석 목적에 맞는 데이터가 준비되어 있는지, 그리고 데이터가 올바르게 적제되어 있는지 파악하는 데이터 속성의 파악
  • 분석 목적 및 개별 변수 속성 파악

관계 파악

  • 변수 간의 관계를 파악하고, 그 관계가 어떤 인사이트를 주는지를 파악한다.
  • 변수간의 상관관계 - 관계 파악의 대표적인 예시
  • 변수 간의 관계 파악 및 가설 검증

 

사전 데이터 탐색

시각화 데이터 탐색 이전에, 데이터를 확인

 

데이터 정의 확인

일반적으로 모든 시스템 내 테이블마다 각 데이터 별 정의서들이 존재한다

> 테이블별 변수 목록, 개수, 설명, 타입 등

정의서 : 테이블의 생성 일자, 및 개략적인 정보를 비롯하여 테이블 내 존재하는 컬럼명, 속성 데이터 타입, 범주별 속성 등을 기록하는 등의 시스템 내 데이터를 관리하기 위한 측면의 모든 정보가 담겨 있는 문서

 

해당 문서를 엑셀이나 워드 같은 형식으로 관리하는 것 이외에도 별도의 메타 관리 시스템에서도 관리하기도 한다.

해당 자료를 통해 분석에 활용할 데이터 컬럼별 타입, 설명등을 먼저 파악을 하고, 실제 데이터를 바라보기 전에 주어진 데이터 속성등을 통해 분석 목적에 활용할 사전 자료를 먼저 검토하는 것이 첫번째

 

실 데이터 확인

실제 데이터를 대상으로 확인

데이터의 누락이나 오류를 데이터 개요를 통해 확인

만일 특정 컬럼에서 데이터가 밀려서 수집되거나, null이 허용되지 않는 컬럼에 null값이 존재하는지에 대한 요소 확인

정의된 범위나 범주대로 데이터가 수집되었는지 확인하는 것이 중요

 

실제 데이터 개요, 결측치, 형상 등 확인

>head,tail,info 기반 확인

 

변수별 정의된 범위 및 분포 등 확인

>관측치 범위/ 분포 등(양수 범위, 위/경도의 유효 범위)

 

요인별 EDA 유형 구분

1. 데이터 변수 개수가 몇 개인가? - 탐색할 데이터의 개수가 몇 개인가에 따라. 1개인지, 혹은 2개 이상인지

1개면 일변량, 2개 이상이면 다변량

 

2. 결과를 어떻게 파악할 것인가? - 데이터 탐색을 통해 데이터 구성이나 셩격 등을 파악할 것이라면 대표적 기술통계량 및 범주별 구성등을 확인하는 비시각화

데이터의 분포나 모양 등의 전체적 파악이 목적이라면 시각화

 

3. 데이터의 유형은 무엇인가? - 연속형 혹은 범주형에 따라서 세부 데이터 탐색 방안이 달라진다.

ex) 일변량 비시각화의 범주형인 경우 빈도표, 연속형인 경우 기술 통계량

 

유형별 데이터 탐색 방안

  일변량(Univariable) 다변량(Multivarable)
비시각화 >빈도표
>기술 통계량
>교차표
>상관계수
시각화 >파이차트
>막대그래프
>히스토그램
>박스플롯
>모자이크플롯
>박스플롯
>평행좌표
>산점도

 

 

일변량 비시각화

분석 대상 데이터가 하나의 변수로 구성되고, 요약 통계량, 빈도 등으로 표현하는 탐색 유형

 

접근이 가장 쉬운 데이터 탐색 유형

 

단일 변수이므로, 원인 및 결과를 다루지는 않으나 데이터 설명 및 구성을 파악

 

범주형 비시각화

빈도표(범주형 데이터의 구성 및 비율 등을 확인)

범주형 변수의 범주별 빈도가 어떻게 구성되었는지를 파악하고, 해당 범주별 비율까지 확인하여 데이터의 구성 파악

또한 결측치의 빈도와 비율을 파악해서 결측 데이터 처리 등을 결정할 수 있다.

 

간단한거에 비해서 매우 중요한 단계다.

 

분류나 예측을 위한 데이터 분석과제를 진행한다고 진행하면, 타겟 데이터의 구성이 어떻게 이루어져 있는지는 분류분석 과제에서 정말 중요한 요소다.

 

타깃 데이터가 1:99면, 올바르지 못한 결과를 획득할 수밖에 없다.

 

  • 특정 범주별 빈도 파악이 목적
  • 범주 별 빈도 수 기반의 구성 파악 및 결측치 빈도 파악
  • 데이터 전체 수 대비 각 범주별 분포 파악

연속형 비시각화

주요 통계 지표(연속형 데이터의 기술 통계량 및 주요 지표 등을 확인)

 

연속형 데이터의 대표 특징을 확인

1. 평균, 분산 등의 기술통계량 (Descriptive Statistics)

2. 중앙값 등의 사분위수 (Quantile Statistics)

3. 왜도, 첨도 등의 분포 관련 지표 (Distribution)

 

ex)age22~51 결과 = Mean 53.4,std=1.29,variance=1.68 등등

 

간단하고 기초적인 방안이지만 중요하다.

 

 

반응형