[회귀분석-5]회귀분석 결과의 해석
『Disclaimer: 본 글은 대학원의 회귀분석 수업 및 회귀분석 서적에 관한 공부 내용을 정리하는 시리즈입니다.
본 내용은 필자가 전부 직접 요약하여 적은 개인 노트이며, 개인 공부 및 복습이 주목적일 뿐, 상업적 의도는 없습니다.
Source: Regression Modeling with Actuarial and Financial Applications by Edward W. Frees』
5-1. Interpreting Individual Effects
개별 변수들의 해석은 세 가지에 달려 있다.
1) Substantive significance: 그 변수가 실제로 유의미한 영향을 주는지
2) Statistical significance: 분석 결과가 단순한 우연에 의한게 아닌지
Statistical significance가 없는 이유는 아래의 식에서 보면 a) disturbance term s의 큰 variation, b) VIF term 즉 높은 collinearity, c) 작은 샘플 사이즈 n.
3) Casual effects: data에서 causation를 exclusive하게 증명하기란 어렵다. 하지만 다음의 증거들이 많으면 causation이 있을 확률이 높다.
- Correlation: 상관계수가 높음 (β값이 큼)
- Consistency: 서로 다른 sample들에 모두 effect가 존재
- Specificity: 하나의 cause당 하나의 effect
- Temporality: cause가 시간적으로 effect보다 앞섬
- Gradient: slope가 급격함(light smoker < heavy smoker)
- Theory: 설득력있는 설명이 있음
- Related experiment: 관련 control된 연구가 있음
5-2. 변수 선택의 중요성
Underfitting은 significant error로 이어지는 반면 overfitting은 effect가 이에 비해 덜하므로 일반적으로 underfitting이 더 위험하다.
Overfitting의 경우 regression coefficient estimates가 unbiased로 남지만, underfitting의 경우 bias될 수 있다.
일반적으로 동일한 모델이면 principle of parsimony, 즉 Occam's razor에 의해 단순한 모델을 우선한다. 그 이유는,
- 단순한 모델은 해석이 쉽다.
- 단순한, parsimonious 모델은 out-of-sample data에 더 잘 perform한다.
- 지나친 변수들은 collinearity로 이어져 individual coefficient들의 해석을 어렵게 한다.
5-3. 데이터 수집의 중요성
Sampling frame error: 만약 sample이 뽑힌 list가 population의 좋은 approximation이 아닐 경우 발생.
이 bias는 adverse selection으로 이어질 수 있다. 건강보험과 연금보험에서, 리스크가 큰 사람들이 더 많이 apply하는 경우이다.
이럴 경우 전체 general population이 아닌, population of interest를 타겟으로 모델링을 해야 한다.
또 다른 문제인 limited sampling region은 extrapolate할 경우 문제를 야기할 수 있는데,
예를 들어 quadratic curve가 실제 response일 때 한정된 region에 linear regression을 하면 결과값이 잘 나올 수가 있다.
그 외에는 limited dependent variables, censoring, truncation, omission, endogenous variables 등의 문제가 있을 수 있다.
책 섹션 6.5읽기?
Number | Title | Author | Date | Votes | Views |
Notice |
[공지]Data Science 게시판의 운영에 관하여
Irealist
|
2020.05.18
|
Votes 0
|
Views 1239
|
Irealist | 2020.05.18 | 0 | 1239 |
22 |
[강화학습-2]Sutton 교과서 챕터 3: Finite Markov Decision Processes
Irealist
|
2020.05.15
|
Votes 0
|
Views 1391
|
Irealist | 2020.05.15 | 0 | 1391 |
21 |
[강화학습-1]Sutton 교과서 챕터 1: 강화학습이란?
Irealist
|
2020.05.15
|
Votes 0
|
Views 2170
|
Irealist | 2020.05.15 | 0 | 2170 |
20 |
[일반]데이터 과학 공부 방법 - 머신러닝, 딥러닝, 강화학습
Irealist
|
2020.05.15
|
Votes 0
|
Views 2632
|
Irealist | 2020.05.15 | 0 | 2632 |
19 |
[일반]데이터 과학 공부 방법 - 선행 과목 및 유용한 사이트 정리 (1)
Irealist
|
2020.05.15
|
Votes 0
|
Views 4946
|
Irealist | 2020.05.15 | 0 | 4946 |
18 |
[계산통계학]Automatic Differentiation
Irealist
|
2017.01.23
|
Votes 0
|
Views 1127
|
Irealist | 2017.01.23 | 0 | 1127 |
17 |
[시계열분석-8]시계열 모델과 예측
Irealist
|
2016.12.04
|
Votes 0
|
Views 989
|
Irealist | 2016.12.04 | 0 | 989 |
16 |
[시계열분석-7]자기상관과 AR모델
Irealist
|
2016.12.04
|
Votes 0
|
Views 2037
|
Irealist | 2016.12.04 | 0 | 2037 |
15 |
[시계열분석-6]추세의 모델링
Irealist
|
2016.12.04
|
Votes 0
|
Views 1287
|
Irealist | 2016.12.04 | 0 | 1287 |
14 |
[회귀분석-5]회귀분석 결과의 해석
Irealist
|
2016.12.03
|
Votes 0
|
Views 630
|
Irealist | 2016.12.03 | 0 | 630 |
13 |
[회귀분석-4]변수 선택 및 모델의 진단
Irealist
|
2016.12.03
|
Votes 0
|
Views 2102
|
Irealist | 2016.12.03 | 0 | 2102 |
12 |
[회귀분석-3]다중 회귀 분석 II
Irealist
|
2016.10.12
|
Votes 0
|
Views 973
|
Irealist | 2016.10.12 | 0 | 973 |
11 |
[회귀분석-2]다중 회귀 분석
Irealist
|
2016.10.09
|
Votes 0
|
Views 1701
|
Irealist | 2016.10.09 | 0 | 1701 |
10 |
[알고리즘-7]그래프의 최단 거리
Irealist
|
2016.10.09
|
Votes 0
|
Views 561
|
Irealist | 2016.10.09 | 0 | 561 |
9 |
[알고리즘-6]DFS의 응용
Irealist
|
2016.09.29
|
Votes 0
|
Views 1240
|
Irealist | 2016.09.29 | 0 | 1240 |
8 |
[회귀분석-1]기본 회귀 분석
Irealist
|
2016.09.25
|
Votes 0
|
Views 1131
|
Irealist | 2016.09.25 | 0 | 1131 |