Data Science

[회귀분석-3]다중 회귀 분석 II

Author
Irealist
Date
2016-10-12 05:51
Views
973

『Disclaimer: 본 글은 대학원의 회귀분석 수업 및 회귀분석 서적에 관한 공부 내용을 정리하는 시리즈입니다. 

본 내용은 필자가 전부 직접 요약하여 적은 개인 노트이며, 개인 공부 및 복습이 주목적일 뿐, 상업적 의도는 없습니다. 

Source: Regression Modeling with Actuarial and Financial Applications by Edward W. Frees


3-1. Binary Variables

Categorical variable에는 ordered와 unordered가 있다. 후자에는 factor라는 용어를 쓰기도 한다.
Ordered variable에는 숫자를 순서대로 부여해도 되지만, unordered에는 0, 1, 2, ... 를 부여하면 그 해석에 무리가 따른다.
따라서 보통 c level을 표현하는데 c개의 binary variable들을 쓴다. (Intercept term이 있는 경우에는 c-1개)

3개 중에 어느 2개를 선택하느냐에 따라 ANOVA table의 값들은 변하지 않으나, interecept 및 2개 variable의 coefficient는 변한다. 따라서 t-ratio도 다르다.
따라서 어느 변수를 intercept로 두느냐에 따라 t-ratio를 더 좋게 보이게 만들 수 있다.

3-2. Statistical Inference for Several Coefficients
3-2-1. Linear Combination of Regression Coefficients

c개의 factor들에 관련된 c-1개의 binary variable들을 전체로써 평가하는 테스트를 알아보자.
우선 regression coefficient들은 β = (β0, β1, ..., βk)T의 (k+1) x 1 벡터로 specify된다.
이 regression coefficient들의 linear combination을 p x (k+1) 행렬 C라고 하자.
H0: = d 를 General Linear Hypothesis라고 부른다.

Case 1: 1개의 Regression Coefficient
하나의 coefficient βj로 표현하려면, p = 1로 선택하고, C는 (j+1)번째 열이 1이고 그 외 열은 0인 1 x (k + 1) 벡터로 선택하면 된다.
1.jpg


Case 2: Regression Function

p = 1로 선택하고, C는 설명변수들의 set의 transpose인 1 x (k + 1) 벡터로 둔다.

2.jpg


Case 3: Linear Combination of Regression Coefficients

p = 1일 때, C = cT = (c0, ..., ck)T로 둔다. 이 경우, 는 regression coefficients의 generic linear comibination이다.

3.jpg


Case 4: Testing Equality of Regression Coefficients

예를 들어 H0: β1 = β2를 테스트하는게 주 목적이면, p = 1, cT = (0, 1, -1, 0, ..., 0), d = 0으로 둔다.

4.jpg


Case 5: Adequacy of the Model

설명변수 중 하나라도 유용한게 있는지 테스트하려면 H0: β1 = β2 = ... = β= 0 으로 둔다. Convention에 의해 intercept가 0인지는 테스트하지 않는다.

이를 위해서 p = k, d = (0, ..., 0)T 으로 k x 1 인 제로벡터, C는 k x (k + 1) 행렬로 둔다.

5.jpg


Case 6: Testing Portions of the Model

아래의 full regression function

6.jpg

을, 아래의 reduced regression function과 비교하려 한다.

7.jpg

여기서 full에서 H0: βk+1 = βk+2 = ... = βk+p = 0 이면, reduced regression function에 도달하므로, Cβ는 아래와 같이 설정한다.

8.jpg

k + p 변수 중에, 굳이 마지막 p개를 drop할 필요는 없고 그 어떤 p개도 무방하다.


3-2-2. General Linear Hypothesis


다시 처음으로 돌아가, H0 = d 를 General Linear Hypothesis라고 부른다.

C는 p x (k + 1) 행렬, d는 p x 1 벡터이며 이 둘은 적용하려는 문제에 따라 사용자가 정할 수 있다.

비록 k + 1이 regression coefficient의 숫자지만, p는 restriction의 숫자이다. (즉, p는 C의 rank다) p ≤ k + 1를 만족해야 한다.


의 estimator는 자연스럽게 Cb인데, ECb = CEb를 통해 확인 가능하다. 또한 Var(Cb) = CVar(b)CT = σ2C(XTX)-1CT이다.

의 hypothesized value인 dCb를 비교하기 위해서 아래의 statistic을 사용한다.

9.jpg

여기서 s2full은 full regression model의 MSE이다. 이 F-ratio는 분자 df1 = p이고 분모 df2 = n - (k + 1)을 가지는 F-distribution이다.

이 F-distribution은 non-negative 값만을 가진다.


위의 식은 복잡하므로, extra sum of squares principle에 의거한 다른 방법은 아래와 같다. 

10.jpg

위의 과정은 F-test라고 한다. 

먼저 Error SS는,

11.jpg

위의 식의 최소값이다. 그리고 full이 더 변수가 많기 때문에,

12.jpg

이다. 그리고 Total SS = Regression SS + Error SS이기 때문에, SSEred - SSEfull = SSRfull - SSRred와도 같다. 이 차는 Type III sum of squares라고 한다.

아까 전 3개의 binary variable 예에서, 각각의 t-statistic이 어떤 것은 insignificant하게 나왔다면, F-test로 확실히 확인할 수 있다.


특별한 경우에, d = 0으로 H0: βk = 0을 테스트하고자할 때, 우리는 이에 t-test도 사용할 수 있음을 안다. 이때 F-ratio는 t-ratio의 제곱이다.

F-test는 다수의 predictor에 적용가능한 장점이 있고, t-test는 one-sided alternative에 사용할 수 있는 장점이 있다.


위 네모 상자 안의 식(4.2)의 분자와 분모를 Total SS로 나누면 test statistic은 아래와 같이 적을 수도 있다.

13.jpg

위의 표현을 해석하자면, F-ratio는 R2의 하락을 측정한다는 것이다. F-ratio와 R2는 정비례한다.


또 한가지 특별한 경우, 위 4-2-1에서 Case 5인 경우 p = k이며 reduced model의 Regression SS가 0이므로,

14.jpg


또 다른 표현으로, Total SS로 나누면 아래를 얻는다.

15.jpg


3-2-3. Prediction


어느 β1 + β2를 estimate하려면 합리적인 estimator는 b1 + b2 이다. 이는 Case 3의 예이다.

이 예에서 c'β = c0β0 + c1β1 + ... + ckβk 이며, 여기서 c1 = c2 = 1로 두고 나머지 c는 0으로 둔다.

c'β의 추정을 위해서는 c'b를 사용한다. 이 estimator의 reliability를 assess하기 위해서는, Var(c'b) = σ2c'(X'X)-1c 를 사용한다.

따라서, c'b의 estimated standard deviation 혹은 standard error는 아래와 같다.

16.jpg

이를 이용해서, c'β의 100(1-α)% confidence interval은,

17.jpg

이고 이는 가정 F1-F5 하에 유효하다. 


Case 1의 경우 c를 (j+1)번째 row에 1이고 나머지는 0이도록 선택하면, c'β = βj, c'b = bj이고,

18.jpg

이다. 즉, 위의 confidence interval은 개별 regression coefficient들의 confidence interval의 이론적 근거를 제공해주고, 이를 임의의 linear combination of regression coefficient로 일반화한다.


이제 만일, 우리가 설명변수의 set인 x*를 알고 있다하고 그에 대한 y*를 추정하고 싶다 하자.

이 때 expected response Ey* = x*Tβ이고, x*는 nonstochastic이며, Var y* = σ2이고, y*는 {y1, ..., yn}과 독립이며 정규분포를 따른다 가정한다.

그러면, 이 가정들 하에, y*의 100(1-α)% prediction interval은,

19.jpg

위와 같다. 


3-2-4. Transformation


Non-linear 식을 w2 = X2 등으로 transform하여 linear regression을 적용할 수 있다.



3-3. One Factor ANOVA Model


Segmentation을 통해 그룹을 나눴을 때,


20.jpg

yij는 jth risk class의 i번째 observation을 말한다. n = n1 + n2 + ... + nc obervation들이 있다 하자.

Factor의 각 level이 한 줄로 표현가능하므로, one factor model은 one-way model이라고도 불린다.

jth CLASS의 sample average는 아래와 같이 표현한다.

21.jpg


3-3-1. Model Assumptions and Analysis


One factor ANOVA model의 식은 아래와 같다.

22.jpg


23.jpg

회귀 분석과 마찬가지로, {εij}는 mean 0와 constant variance (가정 E3)을 갖고, 서로 독립(가정 E4)이다.

따라서 Eyij = μj이다.


Parameters {μj}를 estimate하기 위해, 우리는 method of least squares를 사용한다. μj*를 "candidate" estimate of μj로 두면,

24.jpg

는 sum of squared deviations of the responses from these candidate estimates이다. 그리고 이 SS를 최소화하는 μj*는 yj-bar이다.

즉, yj-bar가 μj의 least squares estimate이다.


그러면,

26.jpg

25.jpg

27.jpg

SSF = SSR과 같은 역할을 한다.

그리고 σ2의 estimate은,

28.jpg

을 사용하고, 여기서 residual인 eij는 아래와 같다.

29.jpg

이 s값을 이용하여 μj의 interval estimate을 구하면 아래와 같다.

30.jpg


그리고 여기서 F-ratio는,

Factor MS / Error MS = [Factor SS / (c - 1)] / [Error SS / (n - c)]이며, Fc-1, n-c와 비교한다.


*3-3-2. Link with Regression


이 ANOVA 모델을 회귀 분석으로 표현하려면,

c개의 레벨 각각 당 c개의 binary variables xi를 정의하고,

31.jpg

ANOVA model을 위와 같이 표현한다.


*3-3-3. Reparameterization


Intercept term을 넣기 위해서는, τj = μj - μ로 정의한다. x1 + ... + xc = 1이어야 하므로, 3-3-2에서의 식에 이를 대입하면,

32.jpg

를 얻는다. 베타 대신 τ를 사용하는 이유는 역사적으로 treatment에 이용되었기 때문이다. 위 식을 더 간단히 표현하면,
33.jpg

이 된다.


*3-3-4. Combining a Factor and Covariate


Categorical variable을 factor, continuous variable을 covariate이라고 한다.

34.jpg








Total 0

Total 38
Number Title Author Date Votes Views
Notice
[공지]Data Science 게시판의 운영에 관하여
Irealist | 2020.05.18 | Votes 0 | Views 1238
Irealist 2020.05.18 0 1238
22
[강화학습-2]Sutton 교과서 챕터 3: Finite Markov Decision Processes
Irealist | 2020.05.15 | Votes 0 | Views 1390
Irealist 2020.05.15 0 1390
21
[강화학습-1]Sutton 교과서 챕터 1: 강화학습이란?
Irealist | 2020.05.15 | Votes 0 | Views 2170
Irealist 2020.05.15 0 2170
20
[일반]데이터 과학 공부 방법 - 머신러닝, 딥러닝, 강화학습
Irealist | 2020.05.15 | Votes 0 | Views 2631
Irealist 2020.05.15 0 2631
19
[일반]데이터 과학 공부 방법 - 선행 과목 및 유용한 사이트 정리 (1)
Irealist | 2020.05.15 | Votes 0 | Views 4946
Irealist 2020.05.15 0 4946
18
[계산통계학]Automatic Differentiation
Irealist | 2017.01.23 | Votes 0 | Views 1127
Irealist 2017.01.23 0 1127
17
[시계열분석-8]시계열 모델과 예측
Irealist | 2016.12.04 | Votes 0 | Views 989
Irealist 2016.12.04 0 989
16
[시계열분석-7]자기상관과 AR모델
Irealist | 2016.12.04 | Votes 0 | Views 2037
Irealist 2016.12.04 0 2037
15
[시계열분석-6]추세의 모델링
Irealist | 2016.12.04 | Votes 0 | Views 1287
Irealist 2016.12.04 0 1287
14
[회귀분석-5]회귀분석 결과의 해석
Irealist | 2016.12.03 | Votes 0 | Views 629
Irealist 2016.12.03 0 629
13
[회귀분석-4]변수 선택 및 모델의 진단
Irealist | 2016.12.03 | Votes 0 | Views 2102
Irealist 2016.12.03 0 2102
12
[회귀분석-3]다중 회귀 분석 II
Irealist | 2016.10.12 | Votes 0 | Views 973
Irealist 2016.10.12 0 973
11
[회귀분석-2]다중 회귀 분석
Irealist | 2016.10.09 | Votes 0 | Views 1701
Irealist 2016.10.09 0 1701
10
[알고리즘-7]그래프의 최단 거리
Irealist | 2016.10.09 | Votes 0 | Views 560
Irealist 2016.10.09 0 560
9
[알고리즘-6]DFS의 응용
Irealist | 2016.09.29 | Votes 0 | Views 1240
Irealist 2016.09.29 0 1240
8
[회귀분석-1]기본 회귀 분석
Irealist | 2016.09.25 | Votes 0 | Views 1131
Irealist 2016.09.25 0 1131