[회귀분석-3]다중 회귀 분석 II
『Disclaimer: 본 글은 대학원의 회귀분석 수업 및 회귀분석 서적에 관한 공부 내용을 정리하는 시리즈입니다.
본 내용은 필자가 전부 직접 요약하여 적은 개인 노트이며, 개인 공부 및 복습이 주목적일 뿐, 상업적 의도는 없습니다.
Source: Regression Modeling with Actuarial and Financial Applications by Edward W. Frees』
Case 2: Regression Function
p = 1로 선택하고, C는 설명변수들의 set의 transpose인 1 x (k + 1) 벡터로 둔다.
Case 3: Linear Combination of Regression Coefficients
p = 1일 때, C = cT = (c0, ..., ck)T로 둔다. 이 경우, Cβ는 regression coefficients의 generic linear comibination이다.
Case 4: Testing Equality of Regression Coefficients
예를 들어 H0: β1 = β2를 테스트하는게 주 목적이면, p = 1, cT = (0, 1, -1, 0, ..., 0), d = 0으로 둔다.
Case 5: Adequacy of the Model
설명변수 중 하나라도 유용한게 있는지 테스트하려면 H0: β1 = β2 = ... = βk = 0 으로 둔다. Convention에 의해 intercept가 0인지는 테스트하지 않는다.
이를 위해서 p = k, d = (0, ..., 0)T 으로 k x 1 인 제로벡터, C는 k x (k + 1) 행렬로 둔다.
Case 6: Testing Portions of the Model
아래의 full regression function
을, 아래의 reduced regression function과 비교하려 한다.
여기서 full에서 H0: βk+1 = βk+2 = ... = βk+p = 0 이면, reduced regression function에 도달하므로, Cβ는 아래와 같이 설정한다.
k + p 변수 중에, 굳이 마지막 p개를 drop할 필요는 없고 그 어떤 p개도 무방하다.
3-2-2. General Linear Hypothesis
다시 처음으로 돌아가, H0: Cβ = d 를 General Linear Hypothesis라고 부른다.
C는 p x (k + 1) 행렬, d는 p x 1 벡터이며 이 둘은 적용하려는 문제에 따라 사용자가 정할 수 있다.
비록 k + 1이 regression coefficient의 숫자지만, p는 restriction의 숫자이다. (즉, p는 C의 rank다) p ≤ k + 1를 만족해야 한다.
Cβ의 estimator는 자연스럽게 Cb인데, ECb = CEb = Cβ를 통해 확인 가능하다. 또한 Var(Cb) = CVar(b)CT = σ2C(XTX)-1CT이다.
Cβ의 hypothesized value인 d와 Cb를 비교하기 위해서 아래의 statistic을 사용한다.
여기서 s2full은 full regression model의 MSE이다. 이 F-ratio는 분자 df1 = p이고 분모 df2 = n - (k + 1)을 가지는 F-distribution이다.
이 F-distribution은 non-negative 값만을 가진다.
위의 식은 복잡하므로, extra sum of squares principle에 의거한 다른 방법은 아래와 같다.
위의 과정은 F-test라고 한다.
먼저 Error SS는,
위의 식의 최소값이다. 그리고 full이 더 변수가 많기 때문에,
이다. 그리고 Total SS = Regression SS + Error SS이기 때문에, SSEred - SSEfull = SSRfull - SSRred와도 같다. 이 차는 Type III sum of squares라고 한다.
아까 전 3개의 binary variable 예에서, 각각의 t-statistic이 어떤 것은 insignificant하게 나왔다면, F-test로 확실히 확인할 수 있다.
특별한 경우에, d = 0으로 H0: βk = 0을 테스트하고자할 때, 우리는 이에 t-test도 사용할 수 있음을 안다. 이때 F-ratio는 t-ratio의 제곱이다.
F-test는 다수의 predictor에 적용가능한 장점이 있고, t-test는 one-sided alternative에 사용할 수 있는 장점이 있다.
위 네모 상자 안의 식(4.2)의 분자와 분모를 Total SS로 나누면 test statistic은 아래와 같이 적을 수도 있다.
위의 표현을 해석하자면, F-ratio는 R2의 하락을 측정한다는 것이다. F-ratio와 R2는 정비례한다.
또 한가지 특별한 경우, 위 4-2-1에서 Case 5인 경우 p = k이며 reduced model의 Regression SS가 0이므로,
또 다른 표현으로, Total SS로 나누면 아래를 얻는다.
3-2-3. Prediction
어느 β1 + β2를 estimate하려면 합리적인 estimator는 b1 + b2 이다. 이는 Case 3의 예이다.
이 예에서 c'β = c0β0 + c1β1 + ... + ckβk 이며, 여기서 c1 = c2 = 1로 두고 나머지 c는 0으로 둔다.
c'β의 추정을 위해서는 c'b를 사용한다. 이 estimator의 reliability를 assess하기 위해서는, Var(c'b) = σ2c'(X'X)-1c 를 사용한다.
따라서, c'b의 estimated standard deviation 혹은 standard error는 아래와 같다.
이를 이용해서, c'β의 100(1-α)% confidence interval은,
이고 이는 가정 F1-F5 하에 유효하다.
Case 1의 경우 c를 (j+1)번째 row에 1이고 나머지는 0이도록 선택하면, c'β = βj, c'b = bj이고,
이다. 즉, 위의 confidence interval은 개별 regression coefficient들의 confidence interval의 이론적 근거를 제공해주고, 이를 임의의 linear combination of regression coefficient로 일반화한다.
이제 만일, 우리가 설명변수의 set인 x*를 알고 있다하고 그에 대한 y*를 추정하고 싶다 하자.
이 때 expected response Ey* = x*Tβ이고, x*는 nonstochastic이며, Var y* = σ2이고, y*는 {y1, ..., yn}과 독립이며 정규분포를 따른다 가정한다.
그러면, 이 가정들 하에, y*의 100(1-α)% prediction interval은,
위와 같다.
3-2-4. Transformation
Non-linear 식을 w2 = X2 등으로 transform하여 linear regression을 적용할 수 있다.
3-3. One Factor ANOVA Model
Segmentation을 통해 그룹을 나눴을 때,
yij는 jth risk class의 i번째 observation을 말한다. n = n1 + n2 + ... + nc obervation들이 있다 하자.
Factor의 각 level이 한 줄로 표현가능하므로, one factor model은 one-way model이라고도 불린다.
jth CLASS의 sample average는 아래와 같이 표현한다.
3-3-1. Model Assumptions and Analysis
One factor ANOVA model의 식은 아래와 같다.
회귀 분석과 마찬가지로, {εij}는 mean 0와 constant variance (가정 E3)을 갖고, 서로 독립(가정 E4)이다.
따라서 Eyij = μj이다.
Parameters {μj}를 estimate하기 위해, 우리는 method of least squares를 사용한다. μj*를 "candidate" estimate of μj로 두면,
는 sum of squared deviations of the responses from these candidate estimates이다. 그리고 이 SS를 최소화하는 μj*는 yj-bar이다.
즉, yj-bar가 μj의 least squares estimate이다.
그러면,
SSF = SSR과 같은 역할을 한다.
그리고 σ2의 estimate은,
을 사용하고, 여기서 residual인 eij는 아래와 같다.
이 s값을 이용하여 μj의 interval estimate을 구하면 아래와 같다.
그리고 여기서 F-ratio는,
Factor MS / Error MS = [Factor SS / (c - 1)] / [Error SS / (n - c)]이며, Fc-1, n-c와 비교한다.
*3-3-2. Link with Regression
이 ANOVA 모델을 회귀 분석으로 표현하려면,
c개의 레벨 각각 당 c개의 binary variables xi를 정의하고,
ANOVA model을 위와 같이 표현한다.
*3-3-3. Reparameterization
Intercept term을 넣기 위해서는, τj = μj - μ로 정의한다. x1 + ... + xc = 1이어야 하므로, 3-3-2에서의 식에 이를 대입하면,
를 얻는다. 베타 대신 τ를 사용하는 이유는 역사적으로 treatment에 이용되었기 때문이다. 위 식을 더 간단히 표현하면,
이 된다.
*3-3-4. Combining a Factor and Covariate
Categorical variable을 factor, continuous variable을 covariate이라고 한다.
Number | Title | Author | Date | Votes | Views |
Notice |
[공지]Data Science 게시판의 운영에 관하여
Irealist
|
2020.05.18
|
Votes 0
|
Views 1238
|
Irealist | 2020.05.18 | 0 | 1238 |
22 |
[강화학습-2]Sutton 교과서 챕터 3: Finite Markov Decision Processes
Irealist
|
2020.05.15
|
Votes 0
|
Views 1390
|
Irealist | 2020.05.15 | 0 | 1390 |
21 |
[강화학습-1]Sutton 교과서 챕터 1: 강화학습이란?
Irealist
|
2020.05.15
|
Votes 0
|
Views 2170
|
Irealist | 2020.05.15 | 0 | 2170 |
20 |
[일반]데이터 과학 공부 방법 - 머신러닝, 딥러닝, 강화학습
Irealist
|
2020.05.15
|
Votes 0
|
Views 2631
|
Irealist | 2020.05.15 | 0 | 2631 |
19 |
[일반]데이터 과학 공부 방법 - 선행 과목 및 유용한 사이트 정리 (1)
Irealist
|
2020.05.15
|
Votes 0
|
Views 4946
|
Irealist | 2020.05.15 | 0 | 4946 |
18 |
[계산통계학]Automatic Differentiation
Irealist
|
2017.01.23
|
Votes 0
|
Views 1127
|
Irealist | 2017.01.23 | 0 | 1127 |
17 |
[시계열분석-8]시계열 모델과 예측
Irealist
|
2016.12.04
|
Votes 0
|
Views 989
|
Irealist | 2016.12.04 | 0 | 989 |
16 |
[시계열분석-7]자기상관과 AR모델
Irealist
|
2016.12.04
|
Votes 0
|
Views 2037
|
Irealist | 2016.12.04 | 0 | 2037 |
15 |
[시계열분석-6]추세의 모델링
Irealist
|
2016.12.04
|
Votes 0
|
Views 1287
|
Irealist | 2016.12.04 | 0 | 1287 |
14 |
[회귀분석-5]회귀분석 결과의 해석
Irealist
|
2016.12.03
|
Votes 0
|
Views 629
|
Irealist | 2016.12.03 | 0 | 629 |
13 |
[회귀분석-4]변수 선택 및 모델의 진단
Irealist
|
2016.12.03
|
Votes 0
|
Views 2102
|
Irealist | 2016.12.03 | 0 | 2102 |
12 |
[회귀분석-3]다중 회귀 분석 II
Irealist
|
2016.10.12
|
Votes 0
|
Views 973
|
Irealist | 2016.10.12 | 0 | 973 |
11 |
[회귀분석-2]다중 회귀 분석
Irealist
|
2016.10.09
|
Votes 0
|
Views 1701
|
Irealist | 2016.10.09 | 0 | 1701 |
10 |
[알고리즘-7]그래프의 최단 거리
Irealist
|
2016.10.09
|
Votes 0
|
Views 560
|
Irealist | 2016.10.09 | 0 | 560 |
9 |
[알고리즘-6]DFS의 응용
Irealist
|
2016.09.29
|
Votes 0
|
Views 1240
|
Irealist | 2016.09.29 | 0 | 1240 |
8 |
[회귀분석-1]기본 회귀 분석
Irealist
|
2016.09.25
|
Votes 0
|
Views 1131
|
Irealist | 2016.09.25 | 0 | 1131 |