Data Science

[회귀분석-5]회귀분석 결과의 해석

Author
Irealist
Date
2016-12-03 15:23
Views
630

『Disclaimer: 본 글은 대학원의 회귀분석 수업 및 회귀분석 서적에 관한 공부 내용을 정리하는 시리즈입니다. 

본 내용은 필자가 전부 직접 요약하여 적은 개인 노트이며, 개인 공부 및 복습이 주목적일 뿐, 상업적 의도는 없습니다. 

Source: Regression Modeling with Actuarial and Financial Applications by Edward W. Frees


5-1. Interpreting Individual Effects


개별 변수들의 해석은 세 가지에 달려 있다.

1) Substantive significance: 그 변수가 실제로 유의미한 영향을 주는지

2) Statistical significance: 분석 결과가 단순한 우연에 의한게 아닌지

Statistical significance가 없는 이유는 아래의 식에서 보면 a) disturbance term s의 큰 variation, b) VIF term 즉 높은 collinearity, c) 작은 샘플 사이즈 n.

01.jpg

3) Casual effects: data에서 causation를 exclusive하게 증명하기란 어렵다. 하지만 다음의 증거들이 많으면 causation이 있을 확률이 높다.

- Correlation: 상관계수가 높음 (β값이 큼)

- Consistency: 서로 다른 sample들에 모두 effect가 존재

- Specificity: 하나의 cause당 하나의 effect

- Temporality: cause가 시간적으로 effect보다 앞섬

- Gradient: slope가 급격함(light smoker < heavy smoker)

- Theory: 설득력있는 설명이 있음

- Related experiment: 관련 control된 연구가 있음


5-2. 변수 선택의 중요성


Underfitting은 significant error로 이어지는 반면 overfitting은 effect가 이에 비해 덜하므로 일반적으로 underfitting이 더 위험하다.

Overfitting의 경우 regression coefficient estimates가 unbiased로 남지만, underfitting의 경우 bias될 수 있다.


일반적으로 동일한 모델이면 principle of parsimony, 즉 Occam's razor에 의해 단순한 모델을 우선한다. 그 이유는,

- 단순한 모델은 해석이 쉽다.

- 단순한, parsimonious 모델은 out-of-sample data에 더 잘 perform한다.

- 지나친 변수들은 collinearity로 이어져 individual coefficient들의 해석을 어렵게 한다.


5-3. 데이터 수집의 중요성


Sampling frame error: 만약 sample이 뽑힌 list가 population의 좋은 approximation이 아닐 경우 발생.

이 bias는 adverse selection으로 이어질 수 있다. 건강보험과 연금보험에서, 리스크가 큰 사람들이 더 많이 apply하는 경우이다.

이럴 경우 전체 general population이 아닌, population of interest를 타겟으로 모델링을 해야 한다.


또 다른 문제인 limited sampling region은 extrapolate할 경우 문제를 야기할 수 있는데, 

예를 들어 quadratic curve가 실제 response일 때 한정된 region에 linear regression을 하면 결과값이 잘 나올 수가 있다.


그 외에는 limited dependent variables, censoring, truncation, omission, endogenous variables 등의 문제가 있을 수 있다.



책 섹션 6.5읽기?

Total 0

Total 38
Number Title Author Date Votes Views
Notice
[공지]Data Science 게시판의 운영에 관하여
Irealist | 2020.05.18 | Votes 0 | Views 1239
Irealist 2020.05.18 0 1239
22
[강화학습-2]Sutton 교과서 챕터 3: Finite Markov Decision Processes
Irealist | 2020.05.15 | Votes 0 | Views 1391
Irealist 2020.05.15 0 1391
21
[강화학습-1]Sutton 교과서 챕터 1: 강화학습이란?
Irealist | 2020.05.15 | Votes 0 | Views 2170
Irealist 2020.05.15 0 2170
20
[일반]데이터 과학 공부 방법 - 머신러닝, 딥러닝, 강화학습
Irealist | 2020.05.15 | Votes 0 | Views 2632
Irealist 2020.05.15 0 2632
19
[일반]데이터 과학 공부 방법 - 선행 과목 및 유용한 사이트 정리 (1)
Irealist | 2020.05.15 | Votes 0 | Views 4946
Irealist 2020.05.15 0 4946
18
[계산통계학]Automatic Differentiation
Irealist | 2017.01.23 | Votes 0 | Views 1127
Irealist 2017.01.23 0 1127
17
[시계열분석-8]시계열 모델과 예측
Irealist | 2016.12.04 | Votes 0 | Views 989
Irealist 2016.12.04 0 989
16
[시계열분석-7]자기상관과 AR모델
Irealist | 2016.12.04 | Votes 0 | Views 2037
Irealist 2016.12.04 0 2037
15
[시계열분석-6]추세의 모델링
Irealist | 2016.12.04 | Votes 0 | Views 1287
Irealist 2016.12.04 0 1287
14
[회귀분석-5]회귀분석 결과의 해석
Irealist | 2016.12.03 | Votes 0 | Views 630
Irealist 2016.12.03 0 630
13
[회귀분석-4]변수 선택 및 모델의 진단
Irealist | 2016.12.03 | Votes 0 | Views 2102
Irealist 2016.12.03 0 2102
12
[회귀분석-3]다중 회귀 분석 II
Irealist | 2016.10.12 | Votes 0 | Views 973
Irealist 2016.10.12 0 973
11
[회귀분석-2]다중 회귀 분석
Irealist | 2016.10.09 | Votes 0 | Views 1701
Irealist 2016.10.09 0 1701
10
[알고리즘-7]그래프의 최단 거리
Irealist | 2016.10.09 | Votes 0 | Views 561
Irealist 2016.10.09 0 561
9
[알고리즘-6]DFS의 응용
Irealist | 2016.09.29 | Votes 0 | Views 1240
Irealist 2016.09.29 0 1240
8
[회귀분석-1]기본 회귀 분석
Irealist | 2016.09.25 | Votes 0 | Views 1131
Irealist 2016.09.25 0 1131