[회귀분석-3]다중 회귀 분석 II

Author

Irealist

Date

2016-10-12 05:51

Views

973

『Disclaimer: 본 글은 대학원의 회귀분석 수업 및 회귀분석 서적에 관한 공부 내용을 정리하는 시리즈입니다.

본 내용은 필자가 전부 직접 요약하여 적은 개인 노트이며, 개인 공부 및 복습이 주목적일 뿐, 상업적 의도는 없습니다.

Source: Regression Modeling with Actuarial and Financial Applications by Edward W. Frees』

3-1. Binary Variables

Categorical variable에는 ordered와 unordered가 있다. 후자에는 factor라는 용어를 쓰기도 한다.

Ordered variable에는 숫자를 순서대로 부여해도 되지만, unordered에는 0, 1, 2, ... 를 부여하면 그 해석에 무리가 따른다.

따라서 보통 c level을 표현하는데 c개의 binary variable들을 쓴다. (Intercept term이 있는 경우에는 c-1개)

3개 중에 어느 2개를 선택하느냐에 따라 ANOVA table의 값들은 변하지 않으나, interecept 및 2개 variable의 coefficient는 변한다. 따라서 t-ratio도 다르다.

따라서 어느 변수를 intercept로 두느냐에 따라 t-ratio를 더 좋게 보이게 만들 수 있다.

3-2. Statistical Inference for Several Coefficients

3-2-1. Linear Combination of Regression Coefficients

c개의 factor들에 관련된 c-1개의 binary variable들을 전체로써 평가하는 테스트를 알아보자.

우선 regression coefficient들은 β = (β0, β1, ..., βk)^T의 (k+1) x 1 벡터로 specify된다.

이 regression coefficient들의 linear combination을 p x (k+1) 행렬 C라고 하자.

H₀: Cβ = d 를 General Linear Hypothesis라고 부른다.

Case 1: 1개의 Regression Coefficient

하나의 coefficient β_j를 Cβ로 표현하려면, p = 1로 선택하고, C는 (j+1)번째 열이 1이고 그 외 열은 0인 1 x (k + 1) 벡터로 선택하면 된다.

Case 2: Regression Function

p = 1로 선택하고, C는 설명변수들의 set의 transpose인 1 x (k + 1) 벡터로 둔다.

Case 3: Linear Combination of Regression Coefficients

p = 1일 때, C = c^T = (c₀, ..., c_k)^T로 둔다. 이 경우, Cβ는 regression coefficients의 generic linear comibination이다.

Case 4: Testing Equality of Regression Coefficients

예를 들어 H₀: β₁ = β₂를 테스트하는게 주 목적이면, p = 1, c^T = (0, 1, -1, 0, ..., 0), d = 0으로 둔다.

Case 5: Adequacy of the Model

설명변수 중 하나라도 유용한게 있는지 테스트하려면 H₀: β₁ = β₂ = ... = β_k= 0 으로 둔다. Convention에 의해 intercept가 0인지는 테스트하지 않는다.

이를 위해서 p = k, d = (0, ..., 0)^T 으로 k x 1 인 제로벡터, C는 k x (k + 1) 행렬로 둔다.

Case 6: Testing Portions of the Model

아래의 full regression function

을, 아래의 reduced regression function과 비교하려 한다.

여기서 full에서 H₀: β_k+1 = β_k+2 = ... = β_k+p= 0 이면, reduced regression function에 도달하므로, Cβ는 아래와 같이 설정한다.

k + p 변수 중에, 굳이 마지막 p개를 drop할 필요는 없고 그 어떤 p개도 무방하다.

3-2-2. General Linear Hypothesis

다시 처음으로 돌아가, H₀: Cβ = d 를 General Linear Hypothesis라고 부른다.

C는 p x (k + 1) 행렬, d는 p x 1 벡터이며 이 둘은 적용하려는 문제에 따라 사용자가 정할 수 있다.

비록 k + 1이 regression coefficient의 숫자지만, p는 restriction의 숫자이다. (즉, p는 C의 rank다) p ≤ k + 1를 만족해야 한다.

Cβ의 estimator는 자연스럽게 Cb인데, ECb = CEb = Cβ를 통해 확인 가능하다. 또한 Var(Cb) = CVar(b)C^T = σ²C(X^TX)^-1C^T이다.

Cβ의 hypothesized value인 d와 Cb를 비교하기 위해서 아래의 statistic을 사용한다.

여기서 s²_full은 full regression model의 MSE이다. 이 F-ratio는 분자 df₁ = p이고 분모 df₂ = n - (k + 1)을 가지는 F-distribution이다.

이 F-distribution은 non-negative 값만을 가진다.

위의 식은 복잡하므로, extra sum of squares principle에 의거한 다른 방법은 아래와 같다.

위의 과정은 F-test라고 한다.

먼저 Error SS는,

위의 식의 최소값이다. 그리고 full이 더 변수가 많기 때문에,

이다. 그리고 Total SS = Regression SS + Error SS이기 때문에, SSE_red - SSE_full = SSR_full - SSR_red와도 같다. 이 차는 Type III sum of squares라고 한다.

아까 전 3개의 binary variable 예에서, 각각의 t-statistic이 어떤 것은 insignificant하게 나왔다면, F-test로 확실히 확인할 수 있다.

특별한 경우에, d = 0으로 H₀: β_k = 0을 테스트하고자할 때, 우리는 이에 t-test도 사용할 수 있음을 안다. 이때 F-ratio는 t-ratio의 제곱이다.

F-test는 다수의 predictor에 적용가능한 장점이 있고, t-test는 one-sided alternative에 사용할 수 있는 장점이 있다.

위 네모 상자 안의 식(4.2)의 분자와 분모를 Total SS로 나누면 test statistic은 아래와 같이 적을 수도 있다.

위의 표현을 해석하자면, F-ratio는 R²의 하락을 측정한다는 것이다. F-ratio와 R²는 정비례한다.

또 한가지 특별한 경우, 위 4-2-1에서 Case 5인 경우 p = k이며 reduced model의 Regression SS가 0이므로,

또 다른 표현으로, Total SS로 나누면 아래를 얻는다.

3-2-3. Prediction

어느 β₁ + β₂를 estimate하려면 합리적인 estimator는 b₁ + b₂ 이다. 이는 Case 3의 예이다.

이 예에서 c'β = c₀β₀ + c₁β₁ + ... + c_kβ_k 이며, 여기서 c₁ = c₂ = 1로 두고 나머지 c는 0으로 둔다.

c'β의 추정을 위해서는 c'b를 사용한다. 이 estimator의 reliability를 assess하기 위해서는, Var(c'b) = σ²c'(X'X)^-1c 를 사용한다.

따라서, c'b의 estimated standard deviation 혹은 standard error는 아래와 같다.

이를 이용해서, c'β의 100(1-α)% confidence interval은,

이고 이는 가정 F1-F5 하에 유효하다.

Case 1의 경우 c를 (j+1)번째 row에 1이고 나머지는 0이도록 선택하면, c'β = β_j, c'b = b_j이고,

이다. 즉, 위의 confidence interval은 개별 regression coefficient들의 confidence interval의 이론적 근거를 제공해주고, 이를 임의의 linear combination of regression coefficient로 일반화한다.

이제 만일, 우리가 설명변수의 set인 x_*를 알고 있다하고 그에 대한 y_*를 추정하고 싶다 하자.

이 때 expected response Ey_* = x_*^Tβ이고, x_*는 nonstochastic이며, Var y_* = σ²이고, y_*는 {y₁, ..., y_n}과 독립이며 정규분포를 따른다 가정한다.

그러면, 이 가정들 하에, y_*의 100(1-α)% prediction interval은,

위와 같다.

3-2-4. Transformation

Non-linear 식을 w² = X₂ 등으로 transform하여 linear regression을 적용할 수 있다.

3-3. One Factor ANOVA Model

Segmentation을 통해 그룹을 나눴을 때,

yij는 jth risk class의 i번째 observation을 말한다. n = n1 + n2 + ... + nc obervation들이 있다 하자.

Factor의 각 level이 한 줄로 표현가능하므로, one factor model은 one-way model이라고도 불린다.

jth CLASS의 sample average는 아래와 같이 표현한다.

3-3-1. Model Assumptions and Analysis

One factor ANOVA model의 식은 아래와 같다.

회귀 분석과 마찬가지로, {εij}는 mean 0와 constant variance (가정 E3)을 갖고, 서로 독립(가정 E4)이다.

따라서 Eyij = μj이다.

Parameters {μj}를 estimate하기 위해, 우리는 method of least squares를 사용한다. μj*를 "candidate" estimate of μj로 두면,

는 sum of squared deviations of the responses from these candidate estimates이다. 그리고 이 SS를 최소화하는 μj*는 yj-bar이다.

즉, yj-bar가 μj의 least squares estimate이다.

그러면,

SSF = SSR과 같은 역할을 한다.

그리고 σ²의 estimate은,

을 사용하고, 여기서 residual인 eij는 아래와 같다.

이 s값을 이용하여 μj의 interval estimate을 구하면 아래와 같다.

그리고 여기서 F-ratio는,

Factor MS / Error MS = [Factor SS / (c - 1)] / [Error SS / (n - c)]이며, F_{c-1, n-c}와 비교한다.

*3-3-2. Link with Regression

이 ANOVA 모델을 회귀 분석으로 표현하려면,

c개의 레벨 각각 당 c개의 binary variables xi를 정의하고,

ANOVA model을 위와 같이 표현한다.

*3-3-3. Reparameterization

Intercept term을 넣기 위해서는, τj = μj - μ로 정의한다. x1 + ... + xc = 1이어야 하므로, 3-3-2에서의 식에 이를 대입하면,

를 얻는다. 베타 대신 τ를 사용하는 이유는 역사적으로 treatment에 이용되었기 때문이다. 위 식을 더 간단히 표현하면,

이 된다.

*3-3-4. Combining a Factor and Covariate

Categorical variable을 factor, continuous variable을 covariate이라고 한다.

Total 0

« [회귀분석-2]다중 회귀 분석

[회귀분석-4]변수 선택 및 모델의 진단 »

List

Total 38

Number	Title	Author	Date	Votes	Views
Notice	[공지]Data Science 게시판의 운영에 관하여 Irealist \| 2020.05.18 \| Votes 0 \| Views 1238	Irealist	2020.05.18	0	1238
22	[강화학습-2]Sutton 교과서 챕터 3: Finite Markov Decision Processes Irealist \| 2020.05.15 \| Votes 0 \| Views 1390	Irealist	2020.05.15	0	1390
21	[강화학습-1]Sutton 교과서 챕터 1: 강화학습이란? Irealist \| 2020.05.15 \| Votes 0 \| Views 2170	Irealist	2020.05.15	0	2170
20	[일반]데이터 과학 공부 방법 - 머신러닝, 딥러닝, 강화학습 Irealist \| 2020.05.15 \| Votes 0 \| Views 2631	Irealist	2020.05.15	0	2631
19	[일반]데이터 과학 공부 방법 - 선행 과목 및 유용한 사이트 정리 (1) Irealist \| 2020.05.15 \| Votes 0 \| Views 4946	Irealist	2020.05.15	0	4946
18	[계산통계학]Automatic Differentiation Irealist \| 2017.01.23 \| Votes 0 \| Views 1127	Irealist	2017.01.23	0	1127
17	[시계열분석-8]시계열 모델과 예측 Irealist \| 2016.12.04 \| Votes 0 \| Views 989	Irealist	2016.12.04	0	989
16	[시계열분석-7]자기상관과 AR모델 Irealist \| 2016.12.04 \| Votes 0 \| Views 2037	Irealist	2016.12.04	0	2037
15	[시계열분석-6]추세의 모델링 Irealist \| 2016.12.04 \| Votes 0 \| Views 1287	Irealist	2016.12.04	0	1287
14	[회귀분석-5]회귀분석 결과의 해석 Irealist \| 2016.12.03 \| Votes 0 \| Views 629	Irealist	2016.12.03	0	629
13	[회귀분석-4]변수 선택 및 모델의 진단 Irealist \| 2016.12.03 \| Votes 0 \| Views 2102	Irealist	2016.12.03	0	2102
12	[회귀분석-3]다중 회귀 분석 II Irealist \| 2016.10.12 \| Votes 0 \| Views 973	Irealist	2016.10.12	0	973
11	[회귀분석-2]다중 회귀 분석 Irealist \| 2016.10.09 \| Votes 0 \| Views 1701	Irealist	2016.10.09	0	1701
10	[알고리즘-7]그래프의 최단 거리 Irealist \| 2016.10.09 \| Votes 0 \| Views 560	Irealist	2016.10.09	0	560
9	[알고리즘-6]DFS의 응용 Irealist \| 2016.09.29 \| Votes 0 \| Views 1240	Irealist	2016.09.29	0	1240
8	[회귀분석-1]기본 회귀 분석 Irealist \| 2016.09.25 \| Votes 0 \| Views 1131	Irealist	2016.09.25	0	1131