티스토리 뷰
목표
일변량 시각화를 정의할 수 있다.
파이썬을 활용하여 일변량 데이터를 시각화할 수 있다.
일변량 시각화
일변량 시각화 방안에는 어떠한 방안이 있는가?
하나의 변수로 구성된 데이터를 전체적인 관점으로 파악할 수 있는 데이터 탐색 유형
단일 변수 데이터를 다양한 그래프로 시각화하여 전체적인 관점으로 살펴보는 것이 목적이다.
일변량 비시각화와 같이 원인과 결과등을 다루지는 않는다.
시각화 vs 비시각화
시각화는 직관적 이해 추구, 정보 전달 시간 단축
데이터의 전체적인 파악을 목표로 할때 사용
비시각화는 효과적인 데이터 요약, 빠른 데이터 성격 파악
범주형 시각화
파이차트
범주형을 빈도표에서 비율로 환산해서 부채꼴의 넓이로 표현
범주형 개수가 적은 경우나 많은 경우 둘 다 쓰기 어렵다.
범주형 비율이 비슷한 경우에는 우위비교 어렵다.
많은 경우에는 조각 수가 너무 많아 시각적 전달 효과가 떨어진다.
일부 범주를 묶어서 범주를 줄인다.
분석 목적이 이러한 방안이 어렵다면 막대 그래프 시각화로 대처한다.
막대 그래프
범주의 수가 많거나 범주 별 크기가 유사하면 비교가 어려운 파이차트
범주 별 비교는 막대그래프 기반의 파악이 비교적 수월하다.
범주 별 크기 차이를 직관적으로 볼 수 있다.
연속형 시각화
히스토그램
연속적으로 응축해서 나타낸다.
관측된 연속형 데이터 값들의 분포 파악 가능
구간 별 분포 상태를 쉽게 알아볼 수 있는 그래프
구간 내 속하는 자료의 수가 많고 적음을 쉽게 파악(막대그래프와 같다)
막대그래프와 유사한 형태를 보유
- 히스토리그램은 연속형 변수의 빈도 분포를 표현
- 막대그래프는 범주형(이산형 포함) 변수의 빈도표 비교 표현
- 히스토그램은 x축의 순서를 변경할 수 없다.
커널 밀도 추정
히스토그램은 구간을 어떻게 설정하느냐에 따라서 5살씩, 혹은 10살씩 구간을 설정할 때마다
구간 크기가 연속적이지 않다.
그래서 해석의 방향성이 달라질 수 있다.
그리고 고차원 데이터에 대한 메모리 문제 발생 가능성 존재
따라서 데이터의 분포를 추정하고자 고안된 방안이 커널 밀도 추정
해당 데이터가 가질 수 있는 모든 값을 추정하는 것이다.
각 데이터를 커널 함수로 대치해서 더함으로서 히스토그램의 분포를 곡선으로 바꾼다.
관측된 연속형 데이터 값들의 분포를 분석하여 연속성 있는 확률 밀도 함수를 추정
관측된 데이터로부터 변수가 가질 수 있는 모든 값의 확률(밀도)을 추정하는 것
히스토그램의 한계점을 극복하기 위해 고안된 방안
- 구간 경계가 연속적이지 않다
- 구간 크기 및 시작 위치에 따라 분포가 다르게 나타난다
- 고차원 데이터에 대한 메모리 문제 발생 가능성 존재
히스토그램을 매끄럽게 그린 것이다.
박스플롯
하나의 그래프 안에 개별 연속형 데이터의 통계 지표의 시각화를 파악할 수 있도록 다양한 정보를 손쉽게 표현
기술통계량 및 각 지표 활용
1. 중앙값
2. 1분위수
3. 3분위수
4. 최대값(IQR value)
5. 최소값(IQR value)
데이터의 개략적인 흩어짐의 형태 파악 및 IQR 기반의 이상치 판단에 용이하다.
데이터의 이상치를 바로 눈에 볼 수 있다.