티스토리 뷰

반응형

목표

회귀분석의 정의 및 기본 가정을 설명할 수 있다.

다중회귀분석을 활용하여 독립변수가 여러 개인 회귀모형을 분석할 수 있다.

 

단순회귀분석

회귀분석은 인과관계 분석에 특화

한 개의 종속변수(Y)와 한 개의 독립변수(X) 사이의 관계를 분석하는 통계 기법

 

Y와 X간의 관계를 일차식(선형)에 대입하여, X의 변화에 따라 Y가 얼마나 변하는지를 예측할 때 사용

 

y=ax+b 라는 식을 통해서 x의 변화가 y에 얼마나 영향을 미치는지

 

회귀분석 기본 가정

가정을 따르지 않는다면 회귀분석으로 도출한 결과를 일반화시키기 힘들다.

 

선형성 : 독립변수(X)와 종속변수(Y)는 선형관계이다.

독립성 : 종속변수 Y는 서로 독립이어야 한다(한 관측 값이 다른 관측치에 의해 영향을 받으면 안됨)

등분산성 : 독립변수 X의 값에 관계없이, 종속변수 Y의 분산은 일정하다.

정규성 : 독립변수 X의 고정된 어떤 값에 대하여 종속변수 Y는 정규분포를 따른다.

 

회귀분석의 모형

Yi = B0+B1*X1 + ei

추정 회귀식

Yi = B0+B1*X1

 

회귀분석에는 다양한 종류가 있으므로 그 점을 알아둬야 한다.

 

최소제곱법

일반적으로 최소제곱법이 수학적으로 편리하다.

x,y의 값을 추세선( Yi = B0+B1*X1 )으로 그리고, 그 값과의 차이의 제곱을 구함.

 

실제 값과 예측치를 뺀 값을 잔차라고 하며, 잔차의 제곱의 합을 최소화하여 모델의 설명력을 높인다.

 

결정계수(R^2)

모델의 설명력을 정량적으로 표현한 것이 결정계수

 

총 변동이 회귀분석을 얼마나 설명할 수 있는지를 0과 1사이의 값으로 정형화하여 표현한 계수

 

따라서 회귀제곱합(SSR) + 잔차 제곱합(SSE) = 전체 제곱합(SST)

 

회귀제곱합(SSR) / 전체 제곱합(SST) = 결정계수(R^2)

 

t검정

단순회귀 계수를 검정할 때, 변화가 통계적 유의성을 가지는 지 확인하고 싶을 것이다.

그럴 때 개별 회귀계수의 통계쩍 유의성은 t 검정으로 확인한다

 

(회귀분석 가정이 만족한다고 가정)

 

회귀분석 모델 :  y = B0 + B1*X1 + ei

x가 변화할 때 y가 변화하는 통계적으로 유의성이 있는지 확인하고 싶다.

 

추정 회귀식 : yi = B0^ + B1^*X1

귀무가설(H0) : Bj^ = Bj

대립가설(H1) : Bj^ !=Bj

검정 통계량 : tj = Bj^ / se(Bj^)

 

se = 스탠다드 에러

세우게 된다면 검정 통계량으로 유의 수준(a)를 세워놓고 높으면 기각, 낮으면 채택

 

결과 해석

만약 |tj| > t(a/2*n-k-1), H0 기각

|tj| < t(a/2*n-k-1), H0 채택

P-vlaue가 유의수준(a) 보다 낮으면, 통계적으로 의미를 가진다.

유의수준이라는 거는, 얼마나 그 그래프를 잘 따르느냐의 의미

선형을 잘 따르면 P-value가 낮은 거고, 아니라면 높은 것이다.

 

다중회귀분석

단순회귀분석의 확장으로 독립변수두 개 이상인 회귀모형에 대한 분석

집값 예측 = 방 개수, 욕식 개수, 총 평수(X1,X2,X3) 같은 독립변수들이 있다.

여러개의 독립변수를 사용한다.

 

다중선형 회귀모델 : Y1 = B0 + B1*x1i + B2*x2i + B3*x3i + .... + Bk*xki + ei

단순호귀와의 차이점 : 단일 개의 독립변수가 아닌 여러 개의 독립변수를 사용

 

다중공선성 문제 : 다중회귀분석 : 각 독립변수 간 독립성 가정

다중공선성 : 독립변수 간 상관성 존재를 의미 -> 독립성이 없을 경우

=> 여러 개의 독립변수가 존재할 때 종속변수의 영향을 주는 독립변수를 찾는 것이 중요하여 최적의 변수 선택이 필요하다.

 

즉, 중복으로 영향을 주지 않도록 해야한다.

VIF와 같은 방식으로 다중공선성에 대한 문제 해결 아이디어를 얻을 수 있다.

파이썬 커맨드 하나로 쉽게 구할 수 있으니, 해보면 도움이 될 것이다.

 

이차 회귀모델

비선형성을 고려한 이차회귀분석

KT 가상 FC 선수별 득점 현황

 

a+B1age1 + B2age^2+ui

 

선형 회귀분석으로는 설명하기 어렵다.

비선형 분석을 할 때도 다분하기 때문에 고려를 해봐야 한다.

 

다항 회귀모델

3차, 4차 등과 같은 다항회귀모델이 있음

2차 이상의 회귀 모형

즉, 2차, 3차, n차 회귀 모형을 말함

변수 간 상호작용 가능(interaction)

 

장점

비선형적 추세를 고려할 수 있음

하지만 데이터에 따라서 Log나 차분을 통한 선형화로 계산을 용이하게 할 수 있다는 것도 있으니 분석시 유념

 

 

 

반응형