[통계분석-2]Statistical Data
본 시리즈는 De Smith, M. J. (2018). Statistical Analysis Handbook A Comprehensive Handbook of Statistical Concepts, Techniques and Software Tools/Dr Michael J de Smith, 2018, The Winchelsea Press. The Winchelsea Press. 교재를 따라가며 각 챕터별로 요약 정리하는 시리즈입니다. 너무 기초적인 부분은 생략합니다.
챕터 2: Statistical Data
Statistics: 우리 세계 주위에서 샘플된 정보를 모으고, 분석하고, 레포팅하는 학문
Statistic: 샘플에서 계산된 통계량, 예를 들어 평균, 총합 등. 해당값들은 그 statistic의 population value인 parameter를 추정하는데 쓰인다.
Measurement: 정보를 계측할 때는 결과가 일관성있고, 정확하고, 대표적이며, 필요할 경우 재생산(reproducible) 가능하도록 노력해야 합니다. 중요한 팩터들에는 다음이 있습니다.
- Framework: 테크니컬 프레임워크는 대상에 대한 수치적인 데이터를 얻고 저장하는 프로세스와 도구를 모두 포함하는 개념입니다. 어떤 국제 표준을 사용할지도 포함됩니다.
- Observer Effects: 정보를 모으려는 관찰자의 존재로 인해 데이터가 변하지 않는지 확인해야 합니다.
- Metrics: 어떤 단위를 사용할지입니다. 예를 들어, 거리를 잴 때 블록별로 재는 것은 회전을 했을 때 다른 거리가 되어버리고, Euclidean distance를 사용하는 것도 20km 이상의 지구 표면을 잴 때는 부정확한 결과를 초래합니다.
- Temporal Effects: 하루 중 어느 시간에 재는지, 어떤 날에 재는지, 어떤 해에 지는지 모두 다른 결과를 낼 수 있습니다. 만약 그 차이가 전반적으로 constant process에 random fluctuation이 더해진 양상이라면 stationary라고 하고, 그게 아니라 트렌드가 존재한다면 non-stationary라 합니다. 또한 이벤트들을 어떤 순서로 계측하는지도 중요할 때가 있습니다.
- Spatial Effects: 다른 위치에서 계측한 값들은 일반적으로 spatial variation을 보입니다. 모든 위치의 모든 방향에서 결과가 비슷하면, 그 프로세스는 isotropic(rotationally invariant)이라 하고, 모든 위치에서만 비슷하면(translationally invariant) stationary라 말할 수 있습니다. 현업에서 대부분의 spatial dataset은 non-stationary입니다.
Measurement Scales
- Nominal(or categorical): 수치적 의미나 순서가 없는 값. 예를 들어 도시 이름이나 전화 번호 등.
- Ordinal: 순서가 있는 값
- Interval: 순서가 있으면서 두 값 사이의 거리를 잴 수 있는 수치적 값들.
- Ratio: interval값이면서 자연스러운 origin값이 있는 값들. 예를 들면 온도에서 Kelvin이나 몸무게. Ratio값의 특징은 20단위는 10단위는 두 배라는 해석이 가능하다. 예를 들어 몸무게가 100kg인 사람은 50kg인 사람 두 명분과 같고, 100 Kelvin은 50 Kelvin보다 두 배로 덥다. 이 두 가지 값들은 모두 0이란 값이 의미를 가진다. 하지만 화씨나 섭씨 같은 경우에는 0이 의미가 없기 때문에 20도가 10도보다 "두 배"로 덥다는 것이 성립되지 않는다.
- Cyclic: modulo 데이터. 예를 들면 시간이나 각도.
Bar Charts, Histograms, and Frequency Distributions
- Bar Chart: 바 차트. Nominal data에 많이 쓰임.
- Histogram: 바 사이에 공간이 없이 표기하며, interval과 ratio scale을 가지는 값들을 범위별로 그룹지어서 개수를 표현해준다. 보통 bin 개수는 5-9개 정도로 하는 것이 일반적이며, 중간 클래스를 만들기 위해 홀수로 한다. Scott(1979)는 데이터 개수가 n이고 표준 편차가 s일 때 bin width인 h를 \(h = [\frac{3.5s}{n^{1/3}}]\)를 제시하기도 합니다.
- Frequency Distribution: 히스토그램의 테이블 형식.
Missing data handling
- Ignore entire records
- Set missing value to a fixed value
- Single estimation procedures - mean/median of nearby points, overall series mean, linear interpolation, linear regression
- Multiple imputation
Sample size의 결정은 다음의 논문 참조. Kotrlik, J. W. K. J. W., & Higgins, C. C. H. C. C. (2001). Organizational research: Determining appropriate sample size in survey research appropriate sample size in survey research. Information technology, learning, and performance journal, 19(1), 43.
주요 medical research 방법론:
- Randomized controlled trials
- Case-control studies
- Cohort studies
- Meta analysis
Number | Title | Author | Date | Votes | Views |
Notice |
[공지]Data Science 게시판의 운영에 관하여
Irealist
|
2020.05.18
|
Votes 0
|
Views 1235
|
Irealist | 2020.05.18 | 0 | 1235 |
37 |
[통계분석-3]Statistical Concepts(작성중)
Irealist
|
2020.08.23
|
Votes 0
|
Views 1000
|
Irealist | 2020.08.23 | 0 | 1000 |
36 |
[통계분석-2]Statistical Data
Irealist
|
2020.08.04
|
Votes 0
|
Views 1329
|
Irealist | 2020.08.04 | 0 | 1329 |
35 |
[통계분석-1]통계 분석 시리즈를 시작하며 / Introduction
Irealist
|
2020.08.04
|
Votes 0
|
Views 1171
|
Irealist | 2020.08.04 | 0 | 1171 |
34 |
[강화학습-14]Sutton 교과서 챕터 13: Policy Gradient Methods
Irealist
|
2020.06.21
|
Votes 0
|
Views 1599
|
Irealist | 2020.06.21 | 0 | 1599 |
33 |
[강화학습-13]Sutton 교과서 챕터 11: Off-policy Methods with Approximation
Irealist
|
2020.06.17
|
Votes 0
|
Views 943
|
Irealist | 2020.06.17 | 0 | 943 |
32 |
[강화학습-12]Sutton 교과서 챕터 10: On-policy Control with Approximation
Irealist
|
2020.06.17
|
Votes 0
|
Views 1063
|
Irealist | 2020.06.17 | 0 | 1063 |
31 |
[강화학습-11]Sutton 교과서 챕터 9: On-Policy Prediction with Approximation
Irealist
|
2020.06.15
|
Votes 0
|
Views 1000
|
Irealist | 2020.06.15 | 0 | 1000 |
30 |
[강화학습-10]Sutton 교과서 챕터 2: Multi-armed Bandits
Irealist
|
2020.06.04
|
Votes 0
|
Views 1310
|
Irealist | 2020.06.04 | 0 | 1310 |
29 |
[강화학습-9]Sutton 교과서 챕터 17.4: Designing Reward Signals
Irealist
|
2020.06.04
|
Votes 0
|
Views 977
|
Irealist | 2020.06.04 | 0 | 977 |
28 |
[강화학습-8]Sutton 교과서 챕터 12: Eligibility Traces
Irealist
|
2020.05.28
|
Votes 0
|
Views 1831
|
Irealist | 2020.05.28 | 0 | 1831 |
27 |
[강화학습-7]Sutton 교과서 챕터 7: n-step Bootstrapping
Irealist
|
2020.05.28
|
Votes 0
|
Views 2074
|
Irealist | 2020.05.28 | 0 | 2074 |
26 |
[강화학습-6]Sutton 교과서 챕터 8: Tabular Methods
Irealist
|
2020.05.27
|
Votes 0
|
Views 724
|
Irealist | 2020.05.27 | 0 | 724 |
25 |
[강화학습-5]Sutton 교과서 챕터 6: Temporal-Difference Learning
Irealist
|
2020.05.23
|
Votes 0
|
Views 1052
|
Irealist | 2020.05.23 | 0 | 1052 |
24 |
[강화학습-4]Sutton 교과서 챕터 5: Monte Carlo Methods
Irealist
|
2020.05.19
|
Votes 0
|
Views 1414
|
Irealist | 2020.05.19 | 0 | 1414 |
23 |
[강화학습-3]Sutton 교과서 챕터 4: Dynamic Programming
Irealist
|
2020.05.19
|
Votes 0
|
Views 1230
|
Irealist | 2020.05.19 | 0 | 1230 |