티스토리 뷰

반응형

목표

산점도의 특징을 설명할 수 있다.

피어슨 상관계수와 스피어맨 상관계수의 차이를 설명할 수 있다.

상관분석을 진행하는 순서를 설명할 수 있다.

 

상관관계

상관관계는 변수 간의 상호 관련성을 의미하며, 관계의 정도는 통계적 또는 시각적인 방법으로 파악 가능

 

산점도 or 상관계수

 

선형관계를 측정하는 피어슨 상관계수

비선형 순위 상관관계를 측정하는 스피어맨 상관계수

 

산점도(scatter plot)

 

산점도를 이용하면 상관관계를 쉽게 파악 가능

 

>두 연속형 데이터의 관계 파악을 빠르게 할 수 있다.

>특정 관계를 가지고 있는 데이터는 한 눈에 파악 가능하다.(선형, 비선형, 원형 등)

>극단치 혹은 이상치 파악 가능

>한 변수의 값이 증가할 떄, 다른 변수의 값도 같이 증가한다면 두 변수는 양의 상관관계

>한 변수는 증가하고 다른 변수는 감소한다면 두 변수는 음의 상관관계

 

상관계수

산점도는 개략적인 아이디어를 주었다면 

 

두 변수 간의 함께 변화하는 경향을 객관적으로 측정할 수 있는 척도

 

피어슨 상관계수 = 선형관계의 강도를 측정

스피어맨 상관계수 = 비선형 순위 상관관계를 측정

 

한 변수가 증가한다면 다른 변수는 감소한다. -> 둘의 부호가 다르다.

 

 

피어슨 상관계수

두 변수간 선형관계의 정도를 객관적으로 측정할 수 있는 방법.

 

r = 공분산(cov(x,y) / { 루트(x의 분산(var(x)) * 루트(y의 분산(var(y)) } (표준편차 * 표준편차)

 

=> E(X-E(x)) * E(Y-E(y)) / { 루트(x의 분산(var(x)) * 루트(y의 분산(var(y)) } 

 

표준 편차와 분포를 사용하기 때문에, 관계의 선형성, 정규성, 등 분산성에 대한 가정이 있어야 통계적으로 의미가 있다.

두 변수의 관계의 양을 나타내는 공분산을 표준편차의 곱수로 나누어 준 것이라고 생각하면 된다.

 

상관계수 r은 -1부터 1까지의 값을 가진다.

>r=0 두 변수 간 선형관계 x

>r=1 완벽한 우상향 직선의 관계 -> 양의 상관관계

>r=-1 : 완벽한 우하향 직선의 관계 -> 음의 상관관계

 

 

비선형 상관계수

 

변수 간 관계가 선형적이지 않다면 비선형 상관계수 산출 또는 데이터 변환 통한 사용성 확보 고려

선형성과 정규성에 문제가 있다면 사용. 피어슨 상관계수보다 더 낫다.

 

스피어맨 상관계수는 순위 파악에 능하다.

모노토닉(단조) 관계만 보장이 된다면 분산과 선형성에 상관없이 훌륭하게 사용할 수 있는 상관 계수

*단조함수 : 주어진 순서를 보존하는 함수

 

대체적으로 X,Y 모두 1위부터 20위까지 순위가 같음

>피어슨 상관계수 : 약 0.7

>스피어맨 상관계수 : 1

 

스피어맨은 정규분포가 아니어도 단조 증가/하락에 관한 비선형관계 포함 가능

 

변수 간 관계가 선형적이지 않다면 데이터 변환 또한 고려

 

지수분포를 따르는 y의 값을 log 변환 -> 선형관계로 변환

 

 

상관분석

 

측정된 두 변수 간의 선형관계까 있는지 탐색 및 확인하는 분석 방법

피어슨 상관분석

 

귀무가설 : H0 : r=0 (선형관계 없음)

대립가설 : H1 : r!=0 (선형관계 있음)

검정 통계량 : t = r * sqrt(n-2) / sqrt(1-r^2) = t검정을 따른다.

자유도는 n-2인 t 분포를 따름

 

기본 가정 - 선형성( 두 변수 관계는 선형적)

정규성 ( 집단별 종속변수는 정규분포를 반족)

등분산성 ( 집단별 종속변수 분포의 분산은 동일)

 

가정이 맞아야 한다. 그래야만 통계적인 해석이 의미가 있는 것이다.

 

 

상관분석 시 주의할 점

 

상관관계가 있다고 인과관계가 있는 것은 아니다.

인과관계가 있으면 상관관계는 있음

 

상관관계 vs 인과관계

 

아이스크림 판매량 증가 <-> 상어에게 습경 당한 수 증가는 상관관계는 있다. 왜? 여름이라는 공통 분모가 있어서.

하지만 인과성은 없다. 둘이 공통적으로 여름이라서 그냥 놀러 가는 사람들이 많아서 나오는 결과지, 둘이 뭔가 영향을 주고받지는 않는다.

 

 

상관분석 process

1.Data 특성 파악 & 알맞은 가설 설정

>종속변수/독립변수 : 모두 '등비'여야 함

>귀무가설 : 변수 간 선형관계x

>대립가설 : 변수 간 선형관계o

 

 

2. 산점도를 이용한 시각화 및 가정 검토 

>선형관계가 아니면 분석의 의미를 찾기 힘듦

>변수형 정규성, 등분산성 체크

 

선형관계를 일차적으로 검토하고, 나머지 가정 체크

선형적이지 않다면 어떤 데이터 변화를 통해 선형성을 충족시킬 건지 생각해봐야 한다.

 

3. 목적에 맞는 분석 수행

>step 1~2 결과를 토대로 최종 분석 방법 서택

 

선형성이 확보된다면 피어슨을, 아니라면 스피어맨

 

4. 결과 해석 및 최종 결론 도출

>P값 기반 상관관계 변수 선택

>관계의 정도 확인

 

 

 

반응형