티스토리 뷰
목표
회귀분석의 정의 및 기본 가정을 설명할 수 있다.
다중회귀분석을 활용하여 독립변수가 여러 개인 회귀모형을 분석할 수 있다.
단순회귀분석
회귀분석은 인과관계 분석에 특화
한 개의 종속변수(Y)와 한 개의 독립변수(X) 사이의 관계를 분석하는 통계 기법
Y와 X간의 관계를 일차식(선형)에 대입하여, X의 변화에 따라 Y가 얼마나 변하는지를 예측할 때 사용
y=ax+b 라는 식을 통해서 x의 변화가 y에 얼마나 영향을 미치는지
회귀분석 기본 가정
가정을 따르지 않는다면 회귀분석으로 도출한 결과를 일반화시키기 힘들다.
선형성 : 독립변수(X)와 종속변수(Y)는 선형관계이다.
독립성 : 종속변수 Y는 서로 독립이어야 한다(한 관측 값이 다른 관측치에 의해 영향을 받으면 안됨)
등분산성 : 독립변수 X의 값에 관계없이, 종속변수 Y의 분산은 일정하다.
정규성 : 독립변수 X의 고정된 어떤 값에 대하여 종속변수 Y는 정규분포를 따른다.
회귀분석의 모형
Yi = B0+B1*X1 + ei
추정 회귀식
Yi = B0+B1*X1
회귀분석에는 다양한 종류가 있으므로 그 점을 알아둬야 한다.
최소제곱법
일반적으로 최소제곱법이 수학적으로 편리하다.
x,y의 값을 추세선( Yi = B0+B1*X1 )으로 그리고, 그 값과의 차이의 제곱을 구함.
실제 값과 예측치를 뺀 값을 잔차라고 하며, 잔차의 제곱의 합을 최소화하여 모델의 설명력을 높인다.
결정계수(R^2)
모델의 설명력을 정량적으로 표현한 것이 결정계수
총 변동이 회귀분석을 얼마나 설명할 수 있는지를 0과 1사이의 값으로 정형화하여 표현한 계수
따라서 회귀제곱합(SSR) + 잔차 제곱합(SSE) = 전체 제곱합(SST)
회귀제곱합(SSR) / 전체 제곱합(SST) = 결정계수(R^2)
t검정
단순회귀 계수를 검정할 때, 변화가 통계적 유의성을 가지는 지 확인하고 싶을 것이다.
그럴 때 개별 회귀계수의 통계쩍 유의성은 t 검정으로 확인한다
(회귀분석 가정이 만족한다고 가정)
회귀분석 모델 : y = B0 + B1*X1 + ei
x가 변화할 때 y가 변화하는 통계적으로 유의성이 있는지 확인하고 싶다.
추정 회귀식 : yi = B0^ + B1^*X1
귀무가설(H0) : Bj^ = Bj
대립가설(H1) : Bj^ !=Bj
검정 통계량 : tj = Bj^ / se(Bj^)
se = 스탠다드 에러
세우게 된다면 검정 통계량으로 유의 수준(a)를 세워놓고 높으면 기각, 낮으면 채택
결과 해석
만약 |tj| > t(a/2*n-k-1), H0 기각
|tj| < t(a/2*n-k-1), H0 채택
P-vlaue가 유의수준(a) 보다 낮으면, 통계적으로 의미를 가진다.
유의수준이라는 거는, 얼마나 그 그래프를 잘 따르느냐의 의미
선형을 잘 따르면 P-value가 낮은 거고, 아니라면 높은 것이다.
다중회귀분석
단순회귀분석의 확장으로 독립변수가 두 개 이상인 회귀모형에 대한 분석
집값 예측 = 방 개수, 욕식 개수, 총 평수(X1,X2,X3) 같은 독립변수들이 있다.
여러개의 독립변수를 사용한다.
다중선형 회귀모델 : Y1 = B0 + B1*x1i + B2*x2i + B3*x3i + .... + Bk*xki + ei
단순호귀와의 차이점 : 단일 개의 독립변수가 아닌 여러 개의 독립변수를 사용
다중공선성 문제 : 다중회귀분석 : 각 독립변수 간 독립성 가정
다중공선성 : 독립변수 간 상관성 존재를 의미 -> 독립성이 없을 경우
=> 여러 개의 독립변수가 존재할 때 종속변수의 영향을 주는 독립변수를 찾는 것이 중요하여 최적의 변수 선택이 필요하다.
즉, 중복으로 영향을 주지 않도록 해야한다.
VIF와 같은 방식으로 다중공선성에 대한 문제 해결 아이디어를 얻을 수 있다.
파이썬 커맨드 하나로 쉽게 구할 수 있으니, 해보면 도움이 될 것이다.
이차 회귀모델
비선형성을 고려한 이차회귀분석
KT 가상 FC 선수별 득점 현황
a+B1age1 + B2age^2+ui
선형 회귀분석으로는 설명하기 어렵다.
비선형 분석을 할 때도 다분하기 때문에 고려를 해봐야 한다.
다항 회귀모델
3차, 4차 등과 같은 다항회귀모델이 있음
2차 이상의 회귀 모형
즉, 2차, 3차, n차 회귀 모형을 말함
변수 간 상호작용 가능(interaction)
장점
비선형적 추세를 고려할 수 있음
하지만 데이터에 따라서 Log나 차분을 통한 선형화로 계산을 용이하게 할 수 있다는 것도 있으니 분석시 유념