티스토리 뷰

반응형

목표

다변량 시각화를 정의할 수 있다.

파이썬을 활용하여 유형별 다변량 데이터를 시각화할 수 있다.

 

다변량 시각화

두 개 이상의 변수로 구성된 데이터의 관계시각화 기반으로 파악하는 데이터 탐색 유형

 

주어진 변수 간의 패턴 및 관계를 다양한 그래프의 시각화를 통해 전체적으로 파악한다.

 

다변량 시각화 종류

데이터 조합 시각화 방안 목적
범주형 - 범주형 모자이크플롯 두 개 범주형 변수 내 범주 별 조합의 빈도 크기를 개략적으로 파악
범주형 - 연속형 박스플롯
평행좌표
범주 별 기술통계량 및 경향성을 개략적으로 파악
연속형 - 연속형 산점도 연속형 변수 간 관계성을 개략적으로 파악(선형/비선형 및 음양 방향 등)

범주형 - 범주형에서는 모자이크 플롯

빈도 크기를 개략적으로 파악

 

범주 별 기술통계랑 및 경향성 - 연속형이 값

 

연속형 - 연속형은 선형/비선형 및 음양 방향 등

 

모자이크 플롯

범주형 - 범주형 변수 조합 내 그룹(Subgroup) 크기 비교

> 범주 그룹 간 비중의 차이를 전체적으로 파악 가능

> 범주 수가 많고, 각 조합별 비중 차이가 크지 않을 경우 전체적 파악이 어려울 수 있음.

 

그럴 때는 범주의 재범주화를 통해 더 세분화하여 나눠야 한다.

 

박스플롯

연속형 데이터에 대한 요약을 보기에 시각적으로 효과적인 방법이다.

다만 다변량 비 시각화 내 활용은, 범주별 정보를 한눈에 파악할 수 있으므로 효과적이다.

 

>많은 데이터를 눈으로 직접 확인하기 어렵고, 대표적 통계 값만으로 파악하기 어려울 때 용이하다.

>범주 그룹(범주형 변수)간 수치(연속형 변수)의 집합 범위와 중앙값, 이상치 등을 빠르게 확인할 수 있다.

>비시각화 기반의 단순 수치값 비교보다 데이터가 설명하는 많은 정보 획득 가능하다.

 

평행좌표

범주형-연속형 변수 조합 간 경향성 파악

>연속형 데이터 기반으로 범주 별 경향성 파악에 용이함

>데이터 트렌트 판단 가능

> 연속형 변수 간 단위 표준화가 이루어지기 전의 데이터 시각화할 경우 파악이 어려울 수 있다.

이러한 경우에는 단위 표준화를 통해서(0~1 사이의 값)으로 스케일링을 한 후에 시각화하는 방안이 인사이트를 찾기 유용할 수 있다.

 

산점도

연속형-연속형 변수 조합 간 상관도 파악

>연속형 데이터 간의 관계를 그래프상으로 어떠한 관계가 있는지 파악하기 위함

>변수 간 분포를 통해 선형 혹은 비선형 관계 및 음양의 방향 등을 빠르게 파악할 수 있음

> 범주 Label 간 비교가 필요할 경우, 해당 부분의 그룹 정보를 표시하면 변수 간 관계 및 범주 그룹 간 관계를 함꼐 파악 가능

 

만약 점이 흩어져 있으면 상관관계가 없다고 할 수 있다.

만약 y=x 그래프면 선형관계이며, 양의 상관관계고, 두 변수가 상관관계가 있다고 볼 수 있다.

반응형