[회귀분석-2]다중 회귀 분석

Author

Irealist

Date

2016-10-09 09:14

Views

1702

『Disclaimer: 본 글은 대학원의 회귀분석 수업 및 회귀분석 서적에 관한 공부 내용을 정리하는 시리즈입니다.

본 내용은 필자가 전부 직접 요약하여 적은 개인 노트이며, 개인 공부 및 복습이 주목적일 뿐, 상업적 의도는 없습니다.

Source: Regression Modeling with Actuarial and Financial Applications by Edward W. Frees』

본 섹션에서는 Simple Linear Regression을 확장하여 Multiple Linear Regression에 대해 알아본다.

2-1. Method of Least Squares(MLS)

(모든 dataset에 대해서는 우선 summary statistics, histogram, scatter plot을 체크하는 것이 좋다)

MLS에서의 method of least squares도 마찬가지로 아래의 SS를 최소화하는 것을 기초로 한다.

Best values, 즉 least squares estimates는 *를 빼고 표현하고, 이 estimates를 통해 least squares(or fitted) regression plane을 아래와 같이 정의한다.

SS를 최소화하는 estimates를 찾기 위해서는 행렬을 사용해야 한다.

일반적으로 X의 첫 열(x₁₀, x₂₀...)은 intercept term으로 1의 값을 가진다.

y는 n x 1의 벡터이고, X는 n x (k + 1)의 행렬이다. (소문자는 벡터, 대문자는 행렬)

이제 SS( )를 최소화하는 b*들을 구하기 위해서는, 각각에 대해 편미분을 취하고 0으로 둔다.

위는 k+1개의 unknown에 대한 k+1개의 식이므로 행렬을 이용하여 푼다.

Parameter 행렬 b* = (b₀*, ..., b_k*)^T로 두면,

SS(b*) = (y - Xb*)^T(y - Xb*) = y^Ty - b^TX^Ty - y^TXb + b^TX^TXb

여기서, (b^TX^Ty)^T = y^TXb는 1 x 1 행렬이므로 스칼라다. 고로,

y^Ty - b^TX^Ty - y^TXb + b^TX^TXb = y^Ty - 2b^TX^Ty + b^TX^TXb

이를 b에 대해 미분하여 0으로 두면,

-2X^Ty + 2X^TXb = 0

따라서 b = (X^TX)^-1X^Ty 이다.

2-2. 가정

다중 회귀 모형의 sampling assumptions들도 기본 회귀 모형과 비슷하다.

2-3. Regression Coefficient Estimators의 특성

Ey = Xβ 이다.

특성1) 가정 F1-4가 유효하면, estimator b는 parameter vector β의 unbiased estimator이다.

특성2) 가정 F1-4가 유효하면, estimator b는 variance Var b = σ²(X^TX)^-1 를 갖는다.

가정 F4에 의해 Cov(y_i, y_j) = 0이고, 가정 F3을 고려하면,

그리고, 이를 이용하여 행렬 계산을 하면,

즉, 다르게 표현하면

Var b_j는 σ²에 (X'X)^-1의 (j+1)번째 diagonal entry를 곱한 값이다.

Cov(b_i, b_j)는 σ²에 (X'X)^-1의 (i+1)번째 row와 (j+1)번째 column에 있는 element를 곱한 값이다.

특성3) Gauss-Markov Theorem: 가정 F1-4가 유효하면, 여러 class of estimator 중 least squares estimator b가 minimum variance unbiased estimator of parameter vector β 이다.

(BLUE: Best Linear Unbiased Estimate) Biased가 variance는 더 작을 수는 있다. 예를 들어 상수면 Var = 0 이다. 하지만 best는 아니다.

또한, X^TX가 full rank가 아닐시 성립하지 않으며, 이 경우에는 variance를 최소화하기 위해 bias를 조금 introduce할 필요가 있다.

만일 Var가 너무 크고 샘플이 적으면 bias를 조금 넣어 variance를 minimize할 수 있다

특성4) 가정 F1-5가 유효하면, least squares estimator b는 정규분포를 띈다.

만약 weight vector w_i = (X^TX)^-1(1, x_i1, ..., x_ik)^T를 정의하면,

이고, b는 결국 response y의 linear combination이다. 가정 F5에 의해 response들은 정규분포이므로, b도 정규분포다.

2-4. Residual Standard Deviation

선형회귀 모델의 다른 parameter인 σ²의 estimator에 대해 알아보자. 이는 기대값을 sample average로 대체함으로써 구할 수 있다.

σ² = E(y - Ey)²에서 로 변환하고, Ey_i = β₀ + ... 는 관찰 불가능하므로 b₀ + ... = y_i-hat 으로 대체하면,

σ²의 estimator인 mean square error(MSE)를 아래와 같이 얻는다.

이것의 양의 제곱근 s는 residual standard deviation이라 한다. n 대신 n-(k+1)을 사용함으로써 이는 unbiased estimator가 된다.

우리가 Ey 대신 y-hat을 사용함으로써 deviation들 사이 소량의 dependencies가 발생했기 때문에, 분모에서도 이를 조정해 주는 것이다.

Residuals = estimated errors인데, error와 달리 residual은 그 평균이 0이어야 하는 것 등 때문에 서로 dependency가 있다.

s는 아래로 표현할 수도 있으며, "standard error of the estimate"이라고 하기도 한다.

2-5. R²

SST = SSE + SSR은 단순 회귀 모형과 동일하다.
R²= SSR / SST 이며, 아래와 같이 response와 fitted value들 간에 상관계수로 표현할 수도 있다.

그래서 R²의 제곱근 R은 multiple correlation coefficient이라고 부르기도 한다.

아래는 ANOVA table이며, 여기서 MSE = s²이고, Regression MS = Regression SS / k 이다.

Explanatory variable가 많을수록 R²는 커지는 것 때문에, adjusted R²또한 이용한다.

여기서 s_y는 모델이나 모델변수에 의존하지 않는다. 따라서, s²와 R_a²은 모델 fit에 대한 동일한 measure들이다.

2-6. T-Test

이전에 특성2에서, Var b_j는 σ²에 (X'X)^-1의 (j+1)번째 diagonal entry를 곱한 값이고, σ²를 estimator s²로 바꿔 제곱근을 하면

이고, regression coefficient를 테스트하기 위해서는 아래를 거친다.

Confidence interval은 아래와 같다.

2-7. Added Variable Plots

회귀 분석을 하다보면 regression coefficient과 correlation의 sign이 다른 경우가 있다. 이 경우 added variable plot이 추가적인 정보를 준다.

y와 x₃가 positive correlation을 보이는데 b₃은 negative라고 하자. 그러면,

1) x₃을 제외한 설명변수들에 대해 y의 regression을 실행하고, 그 residual을 계산한다. 이를 e1이라 두자.

2) 같은 설명변수들에 대해 x₃의 regression을 실행하고, 그 residual을 e2라 한다.

3) e1와 e2를 plot한다.

이 added variable plot은, 다른 설명변수들의 영향을 control한 채 두 변수의 관계를 보여준다.

만일 이것이 negative relationship을 보여주면, 다른 설명변수가 둘에 강한 영향을 주고 있을 가능성이 있다.

예를 들어 x₅가 y와 x₃둘다에 대해 강한 positive relationship을 가지고 있을 경우, y와 x₃사이에 positive correlation을 보일 수 있다.

이 added variable plot의 e1과 e2 사이의 correlation은 partial correlation coefficient라고 부르고, r(y, x_j | x₁, ..., x_j-1, x_j+1, ..., x_k)로 표현한다.

그리고 아래를 통해 계산하는 방법도 있다.

2-8. Special Explanatory Variables

Categorical variable은 그룹으로 분류된 observation에 숫자를 부여한다. 이 중 두 숫자만 가능한 변수를 binary variable이라 한다. (indicator 변수 혹은 dummy 변수라고도 한다)

이 경우 regression coefficient의 해석은 continuous variable처럼 unit change당 y의 expected change가 아니라, 한 level에서 다른 level로 변할 때 y의 expected change이다.

Binary variable은 결국 1일 경우 intercept에 add되어 line을 수직으로 움직인다.

Nonlinear 관계는 exponential/logarithm/polynomial를 새로운 x로 transform함으로써 선형회귀를 적용시킬 수 있다.

또한 interaction term으로 x₃ = x₁ * x₂로 둠으로써, 아래와 같은 interaction을 모델링 할 수 있다.

*Le Maire의 연구의 문제점:

1. 4개의 explanatory variable을 골랐지만, 3개하는게 나을 수도 있었다.

2. 각 169개의 국가가 1 point씩, 즉 인구 비례한 weight가 아니다.

3. Quality of measurement: 덴마크 data는 정확, 아프리카는 부정확

Total 0

« [알고리즘-7]그래프의 최단 거리

[회귀분석-3]다중 회귀 분석 II »

List

Total 38

Number	Title	Author	Date	Votes	Views
Notice	[공지]Data Science 게시판의 운영에 관하여 Irealist \| 2020.05.18 \| Votes 0 \| Views 1240	Irealist	2020.05.18	0	1240
22	[강화학습-2]Sutton 교과서 챕터 3: Finite Markov Decision Processes Irealist \| 2020.05.15 \| Votes 0 \| Views 1391	Irealist	2020.05.15	0	1391
21	[강화학습-1]Sutton 교과서 챕터 1: 강화학습이란? Irealist \| 2020.05.15 \| Votes 0 \| Views 2170	Irealist	2020.05.15	0	2170
20	[일반]데이터 과학 공부 방법 - 머신러닝, 딥러닝, 강화학습 Irealist \| 2020.05.15 \| Votes 0 \| Views 2632	Irealist	2020.05.15	0	2632
19	[일반]데이터 과학 공부 방법 - 선행 과목 및 유용한 사이트 정리 (1) Irealist \| 2020.05.15 \| Votes 0 \| Views 4946	Irealist	2020.05.15	0	4946
18	[계산통계학]Automatic Differentiation Irealist \| 2017.01.23 \| Votes 0 \| Views 1128	Irealist	2017.01.23	0	1128
17	[시계열분석-8]시계열 모델과 예측 Irealist \| 2016.12.04 \| Votes 0 \| Views 990	Irealist	2016.12.04	0	990
16	[시계열분석-7]자기상관과 AR모델 Irealist \| 2016.12.04 \| Votes 0 \| Views 2037	Irealist	2016.12.04	0	2037
15	[시계열분석-6]추세의 모델링 Irealist \| 2016.12.04 \| Votes 0 \| Views 1287	Irealist	2016.12.04	0	1287
14	[회귀분석-5]회귀분석 결과의 해석 Irealist \| 2016.12.03 \| Votes 0 \| Views 630	Irealist	2016.12.03	0	630
13	[회귀분석-4]변수 선택 및 모델의 진단 Irealist \| 2016.12.03 \| Votes 0 \| Views 2102	Irealist	2016.12.03	0	2102
12	[회귀분석-3]다중 회귀 분석 II Irealist \| 2016.10.12 \| Votes 0 \| Views 973	Irealist	2016.10.12	0	973
11	[회귀분석-2]다중 회귀 분석 Irealist \| 2016.10.09 \| Votes 0 \| Views 1702	Irealist	2016.10.09	0	1702
10	[알고리즘-7]그래프의 최단 거리 Irealist \| 2016.10.09 \| Votes 0 \| Views 561	Irealist	2016.10.09	0	561
9	[알고리즘-6]DFS의 응용 Irealist \| 2016.09.29 \| Votes 0 \| Views 1240	Irealist	2016.09.29	0	1240
8	[회귀분석-1]기본 회귀 분석 Irealist \| 2016.09.25 \| Votes 0 \| Views 1131	Irealist	2016.09.25	0	1131