티스토리 뷰
데이터 사이언스 & 로봇/데이터 분석
[Python] 데이터 시각화 실무 - 정적 시각화 개요(Matplotlib vs Seaborn)
sikaro 2024. 2. 15. 13:59반응형
목표
데이터 시각화의 특징을 설명할 수 있다.
그래프를 구성하는 요소와 방식을 설명할 수 있다.
파이썬 시각화 라이브러리인 Matplotlib와 Seaborn의 차이를 구분할 수 있다.
데이터 시각화
"그림은 백 마디의 가치가 있다."
직관적으로 정보를 확인하는 효과적인 방법
적절한 그래프 유형 선택과 옵션 활용이 중요
좋은 정보전달을 위해 데이터 유형에 맞는 그래프 유형과 옵션 선택이 중요하다.
데이터 시각화 이유
Visual Explanation
바로 한눈에 파악할 수 있다.
데이터가 더 많고 복잡하다면 텍스트로 표현은 더 힘들다.
사람들은 시각적인 것에 더 빠르게 반응한다.
Anscombe 예제 : 기술 통계 vs 데이터 시각화
기술 통계량에만 의존하면 안되는 이유
4개의 데이터셋의 x,y의 평균값이 모두 동일하지만, 각 데이터셋의 추세는 다 다른 데이터 분포를 가지고 있었다.
그래프 구성 요소
그래프를 구성하는 요소와 방식을 안다면 다양한 활용 가능
figure : 도화지 (그림 전체)
axes : 도화지 내 plot이 그려지는 공간
axis : plot의 축 -> y축,x축
즉, axes는 figure에서 axes를 여러개를 해서 그릴 수 있다.
파이썬 시각화 라이브러리
대표적으로 Matplotlib과 Seaborn을 많이 사용함
Matplotlib | Seaborn | |
파이썬의 기본적인 시각화 라이브러리 | 기능 | 통계 시각화에 특화 |
기본적이고 단순한 디스플레이 | 디스플레이 | 다채로운 시각화 가능 |
한 줄의 코드로 복잡한 그래프 구현 어려움 | 복잡도 | 쉽고 간단하게 복잡한 기능 구현 |
여러 개의 시각화 기능 | 다중성 | 다중 시각화 어려움(메모리 부족 이슈) |
유연한 인터페이스 제공 (즉, 원하는 기능 구현 용이) |
유연성 | 유연성이 상대적으로 떨어짐 |
sns.pairplot을 하면 엄청난 그래프를 쉽고 빠르게 그린다.
하지만, 변수가 추가될수록 메모리 부족 이슈 & 가독성이 떨어진다.
반응형