티스토리 뷰
목표
다변량 비시각화를 정의할 수 있다.
파이썬을 활용하여 다변량 데이터를 비시각화할 수 있다.
다변량 비시각화
두 개 이상의 변수로 구성된 데이터의 관계를 교차표 및 상관계수 등으로 파악하는 데이터 탐색 유형
주어진 변수 간의 관계를 수치 및 통계적 지표 기반으로 파악하는 것이 목적
개별 속성을 기반으로 어떠한 관계를 가지고 있는지 파악하는 게 목적이기 때문에, 데이터 분석 업무단에서 데이터 분석가의 고민이 담기는 부분이다.
다변량 비시각화의 종류
데이터 조합 | 비시각화 방안 | 목적 |
범주형 - 범주형 | 교차표 | 두 개 범주형 변수의 범주 별 연관성 및 구성 파악 |
범주형 - 연속형 | 범주 별 통계량 | 범주 별 대표 통계량 비교 파악 |
연속형 - 연속형 | 상관계수 | 두 개 연속형 변수의 관계썽 정도 파악 |
범주형-범주형에서 교차표는
데이터가 각 범주별 조합에 따라 어느 정도의 빈도로 구성되어 있고, 어느 특정 조합이 비교적 우위로 나타나는지에 대해서 파악을 할 수 있는 방안
ex) 특정 범주별 조합이 타겟인 변수와 관계가 깊고 혹은 얕음을 파악
범주형-연속형에서 범주 별 통계량은
이는 특정 기법이라기 보다는 데이터별 특정 대표값을 파악하고, 범주별 차이를 보기 위해서 많이 활용되는 방안
연속형-연속형에서 연속성 변수간의 관계성 정도를 파악하는 걸 목적으로 상관계수를 도출한다.
그 값이 높고 낮음을 통해 변수관의 관계성이 크다, 낮다, 밀접하다, 밀접하지 않다를 파악
교차표(Cross tabulation)
차량 보유 여부를 파악하려 할 때
조합 간 연관관계 파악
변수 2 (차량 보유) | 합계 | |||
보유 | 미보유 | |||
변수 1 (소득 범주) |
고 | 30(83.3%) | 6(16.7%) | 36 |
중 | 68(52.3%) | 62(47.7%) | 130 | |
저 | 70(29.9%) | 164(70.9%) | 234 | |
합계 | 168(42.0%) | 232(58.0%) | 400 |
소득 범주가 고소득과 저소득인 경우에는 차량의 보유 및 미보유의 차이 비율이 두드러진다.
그러난 중간 정도는 비슷비슷하다.
하나의 범주 변수를 더 추가해서 비교를 할 수도 있다.
변수 2 (차량 보유) | 합계 | ||||
보유 | 미보유 | ||||
변수 1 (소득 범주/거주 지역) |
고 | 서울 | 21(84.0%) | 4(16.0%) | 36 |
이외 | 9(81.8%) | 2(18.2%) | |||
중 | 서울 | 25(34.7%) | 47(65.3%) | 130 | |
이외 | 43(74.1%) | 15(25.9%) | |||
저 | 서울 | 25(20.0%) | 100(80.0%) | 234 | |
이외 | 45(41.3%) | 64(58.7%) | |||
합계 | 168(42.0%) | 232(58.0%) | 400 |
중간소득 범주 내 차량 보유 여부는 거주 지역에 따라 구성이 두드러진다.
소득이 고소득인 경우, 차량 보유. 저소득인 경우 차량 미보유, 그리고 중간일 경우 서울인 경우 미보유. 이외에는 보유 하는 경향이 두드러진다.
범주별 연관성을 파악하기 위한 방안으로 교챠표를 활용할 수 있다.
범주 별 요약 통계량
데이터별, 범주별 특정 대표값을 찾아내고 범주별 차이를 찾아내기 위해서 많이 활용되는 방안이다.
평균 = 고-중 차이(10.2) / 중-저 차이(23.1)
중앙값 = 고-중 차이(8.9) / 중-저 차이(14.7)
평균과 중앙값을 소득 범주별로 나타낸 것
중앙값의 차이 값이 더 적은 걸 볼 수 있다.
즉, 범주형이 차이를 나누고, 연속형으로 값을 나타낸다.
데이터를 요약설명하기 위한 리포팅 자료나 보고서에서 많이 활용된다.
상관계수(corr. coefficient)
연속형 - 연속형 변수 조합간 관계성 강도를 파악한다.
서로 독립적인 관계이거나 상관된 관계일 수 있다.
두 변수간의 연관된 정도를 나타낼 뿐, 인과(원인과 결과)를 나타내는 건아니다.
인과관계는 회귀분석으로 통해서 인과관계의 방향, 정도 등을 확인할 수 있다.
연령이라는 연소득 변수간의 상관계수를 도출한 표의 결과
0.89
가장 강한 양의 상관계수 연령이 높아질수록, 연소득이 높아진다.
독립적일수록 피처를 선택할 떄 중복이 없어 더 좋다.
약한 양의 상관계수 0.17
높은 상관계수
상관계수 절대값 : 0.7~1 (강한 상관관계)
상관관계 존재 : 0.3~0.6 ( 상관관계 존재)
약한 상관관계 : 0.1~0.3 ( 약한 상관관계)
회수분석에서 독립변수 간에 강한 상관관계 발생
->다중공선성 발생
독립 변수 간의 관계는 독립적이라는 회귀분석 가정에 위배된다.
회구 계수가 부안정하여 종속변수에 미치는 영향력을 올바르게 설명치 못하므로 모델의 안정성을 저해한다.
데이터 탐색 중 상관분석 결과를 통해 모델링 사전 단계 내 고려 필요.
완벽하게 다중공선성을 제거한다는 건 불가능하다.
기준치 중에서 높게 나오는 컬럼들 중에서 하나를 고르고 나머지는 삭제한다.
분석의 목표를 고려해서 논리적으로 종속변수와 더 밀접한 변수를 삭제
도메인 지식을 기반으로 상관성을 판단.
PCA와 같은 주성분 분석으로 새로운 변수 생성도 대안이 될 수 있다.