[회귀분석-5]회귀분석 결과의 해석

Author

Irealist

Date

2016-12-03 15:23

Views

630

『Disclaimer: 본 글은 대학원의 회귀분석 수업 및 회귀분석 서적에 관한 공부 내용을 정리하는 시리즈입니다.

본 내용은 필자가 전부 직접 요약하여 적은 개인 노트이며, 개인 공부 및 복습이 주목적일 뿐, 상업적 의도는 없습니다.

Source: Regression Modeling with Actuarial and Financial Applications by Edward W. Frees』

5-1. Interpreting Individual Effects

개별 변수들의 해석은 세 가지에 달려 있다.

1) Substantive significance: 그 변수가 실제로 유의미한 영향을 주는지

2) Statistical significance: 분석 결과가 단순한 우연에 의한게 아닌지

Statistical significance가 없는 이유는 아래의 식에서 보면 a) disturbance term s의 큰 variation, b) VIF term 즉 높은 collinearity, c) 작은 샘플 사이즈 n.

3) Casual effects: data에서 causation를 exclusive하게 증명하기란 어렵다. 하지만 다음의 증거들이 많으면 causation이 있을 확률이 높다.

- Correlation: 상관계수가 높음 (β값이 큼)

- Consistency: 서로 다른 sample들에 모두 effect가 존재

- Specificity: 하나의 cause당 하나의 effect

- Temporality: cause가 시간적으로 effect보다 앞섬

- Gradient: slope가 급격함(light smoker < heavy smoker)

- Theory: 설득력있는 설명이 있음

- Related experiment: 관련 control된 연구가 있음

5-2. 변수 선택의 중요성

Underfitting은 significant error로 이어지는 반면 overfitting은 effect가 이에 비해 덜하므로 일반적으로 underfitting이 더 위험하다.

Overfitting의 경우 regression coefficient estimates가 unbiased로 남지만, underfitting의 경우 bias될 수 있다.

일반적으로 동일한 모델이면 principle of parsimony, 즉 Occam's razor에 의해 단순한 모델을 우선한다. 그 이유는,

- 단순한 모델은 해석이 쉽다.

- 단순한, parsimonious 모델은 out-of-sample data에 더 잘 perform한다.

- 지나친 변수들은 collinearity로 이어져 individual coefficient들의 해석을 어렵게 한다.

5-3. 데이터 수집의 중요성

Sampling frame error: 만약 sample이 뽑힌 list가 population의 좋은 approximation이 아닐 경우 발생.

이 bias는 adverse selection으로 이어질 수 있다. 건강보험과 연금보험에서, 리스크가 큰 사람들이 더 많이 apply하는 경우이다.

이럴 경우 전체 general population이 아닌, population of interest를 타겟으로 모델링을 해야 한다.

또 다른 문제인 limited sampling region은 extrapolate할 경우 문제를 야기할 수 있는데,

예를 들어 quadratic curve가 실제 response일 때 한정된 region에 linear regression을 하면 결과값이 잘 나올 수가 있다.

그 외에는 limited dependent variables, censoring, truncation, omission, endogenous variables 등의 문제가 있을 수 있다.

책 섹션 6.5읽기?

Total 0

« [회귀분석-4]변수 선택 및 모델의 진단

[시계열분석-6]추세의 모델링 »

List

Total 38

Number	Title	Author	Date	Votes	Views
Notice	[공지]Data Science 게시판의 운영에 관하여 Irealist \| 2020.05.18 \| Votes 0 \| Views 1239	Irealist	2020.05.18	0	1239
22	[강화학습-2]Sutton 교과서 챕터 3: Finite Markov Decision Processes Irealist \| 2020.05.15 \| Votes 0 \| Views 1391	Irealist	2020.05.15	0	1391
21	[강화학습-1]Sutton 교과서 챕터 1: 강화학습이란? Irealist \| 2020.05.15 \| Votes 0 \| Views 2170	Irealist	2020.05.15	0	2170
20	[일반]데이터 과학 공부 방법 - 머신러닝, 딥러닝, 강화학습 Irealist \| 2020.05.15 \| Votes 0 \| Views 2632	Irealist	2020.05.15	0	2632
19	[일반]데이터 과학 공부 방법 - 선행 과목 및 유용한 사이트 정리 (1) Irealist \| 2020.05.15 \| Votes 0 \| Views 4946	Irealist	2020.05.15	0	4946
18	[계산통계학]Automatic Differentiation Irealist \| 2017.01.23 \| Votes 0 \| Views 1127	Irealist	2017.01.23	0	1127
17	[시계열분석-8]시계열 모델과 예측 Irealist \| 2016.12.04 \| Votes 0 \| Views 989	Irealist	2016.12.04	0	989
16	[시계열분석-7]자기상관과 AR모델 Irealist \| 2016.12.04 \| Votes 0 \| Views 2037	Irealist	2016.12.04	0	2037
15	[시계열분석-6]추세의 모델링 Irealist \| 2016.12.04 \| Votes 0 \| Views 1287	Irealist	2016.12.04	0	1287
14	[회귀분석-5]회귀분석 결과의 해석 Irealist \| 2016.12.03 \| Votes 0 \| Views 630	Irealist	2016.12.03	0	630
13	[회귀분석-4]변수 선택 및 모델의 진단 Irealist \| 2016.12.03 \| Votes 0 \| Views 2102	Irealist	2016.12.03	0	2102
12	[회귀분석-3]다중 회귀 분석 II Irealist \| 2016.10.12 \| Votes 0 \| Views 973	Irealist	2016.10.12	0	973
11	[회귀분석-2]다중 회귀 분석 Irealist \| 2016.10.09 \| Votes 0 \| Views 1701	Irealist	2016.10.09	0	1701
10	[알고리즘-7]그래프의 최단 거리 Irealist \| 2016.10.09 \| Votes 0 \| Views 561	Irealist	2016.10.09	0	561
9	[알고리즘-6]DFS의 응용 Irealist \| 2016.09.29 \| Votes 0 \| Views 1240	Irealist	2016.09.29	0	1240
8	[회귀분석-1]기본 회귀 분석 Irealist \| 2016.09.25 \| Votes 0 \| Views 1131	Irealist	2016.09.25	0	1131