Data Science

[통계분석-2]Statistical Data

Author
Irealist
Date
2020-08-04 17:00
Views
1329

본 시리즈는 De Smith, M. J. (2018). Statistical Analysis Handbook A Comprehensive Handbook of Statistical Concepts, Techniques and Software Tools/Dr Michael J de Smith, 2018, The Winchelsea Press. The Winchelsea Press. 교재를 따라가며 각 챕터별로 요약 정리하는 시리즈입니다. 너무 기초적인 부분은 생략합니다.


챕터 2: Statistical Data

Statistics: 우리 세계 주위에서 샘플된 정보를 모으고, 분석하고, 레포팅하는 학문

Statistic: 샘플에서 계산된 통계량, 예를 들어 평균, 총합 등. 해당값들은 그 statistic의 population value인 parameter를 추정하는데 쓰인다.


Measurement: 정보를 계측할 때는 결과가 일관성있고, 정확하고, 대표적이며, 필요할 경우 재생산(reproducible) 가능하도록 노력해야 합니다. 중요한 팩터들에는 다음이 있습니다.

  • Framework: 테크니컬 프레임워크는 대상에 대한 수치적인 데이터를 얻고 저장하는 프로세스와 도구를 모두 포함하는 개념입니다. 어떤 국제 표준을 사용할지도 포함됩니다.
  • Observer Effects: 정보를 모으려는 관찰자의 존재로 인해 데이터가 변하지 않는지 확인해야 합니다.
  • Metrics: 어떤 단위를 사용할지입니다. 예를 들어, 거리를 잴 때 블록별로 재는 것은 회전을 했을 때 다른 거리가 되어버리고, Euclidean distance를 사용하는 것도 20km 이상의 지구 표면을 잴 때는 부정확한 결과를 초래합니다.
  • Temporal Effects: 하루 중 어느 시간에 재는지, 어떤 날에 재는지, 어떤 해에 지는지 모두 다른 결과를 낼 수 있습니다. 만약 그 차이가 전반적으로 constant process에 random fluctuation이 더해진 양상이라면 stationary라고 하고, 그게 아니라 트렌드가 존재한다면 non-stationary라 합니다. 또한 이벤트들을 어떤 순서로 계측하는지도 중요할 때가 있습니다.
  • Spatial Effects: 다른 위치에서 계측한 값들은 일반적으로 spatial variation을 보입니다. 모든 위치의 모든 방향에서 결과가 비슷하면, 그 프로세스는 isotropic(rotationally invariant)이라 하고, 모든 위치에서만 비슷하면(translationally invariant) stationary라 말할 수 있습니다. 현업에서 대부분의 spatial dataset은 non-stationary입니다.

Measurement Scales

  • Nominal(or categorical): 수치적 의미나 순서가 없는 값. 예를 들어 도시 이름이나 전화 번호 등.
  • Ordinal: 순서가 있는 값
  • Interval: 순서가 있으면서 두 값 사이의 거리를 잴 수 있는 수치적 값들.
  • Ratio: interval값이면서 자연스러운 origin값이 있는 값들. 예를 들면 온도에서 Kelvin이나 몸무게. Ratio값의 특징은 20단위는 10단위는 두 배라는 해석이 가능하다. 예를 들어 몸무게가 100kg인 사람은 50kg인 사람 두 명분과 같고, 100 Kelvin은 50 Kelvin보다 두 배로 덥다. 이 두 가지 값들은 모두 0이란 값이 의미를 가진다. 하지만 화씨나 섭씨 같은 경우에는 0이 의미가 없기 때문에 20도가 10도보다 "두 배"로 덥다는 것이 성립되지 않는다.
  • Cyclic: modulo 데이터. 예를 들면 시간이나 각도.

Bar Charts, Histograms, and Frequency Distributions

  • Bar Chart: 바 차트. Nominal data에 많이 쓰임.
  • Histogram: 바 사이에 공간이 없이 표기하며, interval과 ratio scale을 가지는 값들을 범위별로 그룹지어서 개수를 표현해준다. 보통 bin 개수는 5-9개 정도로 하는 것이 일반적이며, 중간 클래스를 만들기 위해 홀수로 한다. Scott(1979)는 데이터 개수가 n이고 표준 편차가 s일 때 bin width인 h를 \(h = [\frac{3.5s}{n^{1/3}}]\)를 제시하기도 합니다.
  • Frequency Distribution: 히스토그램의 테이블 형식.

Missing data handling

  • Ignore entire records
  • Set missing value to a fixed value
  • Single estimation procedures - mean/median of nearby points, overall series mean, linear interpolation, linear regression
  • Multiple imputation

Sample size의 결정은 다음의 논문 참조. Kotrlik, J. W. K. J. W., & Higgins, C. C. H. C. C. (2001). Organizational research: Determining appropriate sample size in survey research appropriate sample size in survey research. Information technology, learning, and performance journal19(1), 43.

주요 medical research 방법론:

  • Randomized controlled trials
  • Case-control studies
  • Cohort studies
  • Meta analysis
Total 0

Total 38
Number Title Author Date Votes Views
Notice
[공지]Data Science 게시판의 운영에 관하여
Irealist | 2020.05.18 | Votes 0 | Views 1235
Irealist 2020.05.18 0 1235
37
[통계분석-3]Statistical Concepts(작성중)
Irealist | 2020.08.23 | Votes 0 | Views 1000
Irealist 2020.08.23 0 1000
36
[통계분석-2]Statistical Data
Irealist | 2020.08.04 | Votes 0 | Views 1329
Irealist 2020.08.04 0 1329
35
[통계분석-1]통계 분석 시리즈를 시작하며 / Introduction
Irealist | 2020.08.04 | Votes 0 | Views 1171
Irealist 2020.08.04 0 1171
34
[강화학습-14]Sutton 교과서 챕터 13: Policy Gradient Methods
Irealist | 2020.06.21 | Votes 0 | Views 1599
Irealist 2020.06.21 0 1599
33
[강화학습-13]Sutton 교과서 챕터 11: Off-policy Methods with Approximation
Irealist | 2020.06.17 | Votes 0 | Views 943
Irealist 2020.06.17 0 943
32
[강화학습-12]Sutton 교과서 챕터 10: On-policy Control with Approximation
Irealist | 2020.06.17 | Votes 0 | Views 1063
Irealist 2020.06.17 0 1063
31
[강화학습-11]Sutton 교과서 챕터 9: On-Policy Prediction with Approximation
Irealist | 2020.06.15 | Votes 0 | Views 1000
Irealist 2020.06.15 0 1000
30
[강화학습-10]Sutton 교과서 챕터 2: Multi-armed Bandits
Irealist | 2020.06.04 | Votes 0 | Views 1310
Irealist 2020.06.04 0 1310
29
[강화학습-9]Sutton 교과서 챕터 17.4: Designing Reward Signals
Irealist | 2020.06.04 | Votes 0 | Views 977
Irealist 2020.06.04 0 977
28
[강화학습-8]Sutton 교과서 챕터 12: Eligibility Traces
Irealist | 2020.05.28 | Votes 0 | Views 1831
Irealist 2020.05.28 0 1831
27
[강화학습-7]Sutton 교과서 챕터 7: n-step Bootstrapping
Irealist | 2020.05.28 | Votes 0 | Views 2074
Irealist 2020.05.28 0 2074
26
[강화학습-6]Sutton 교과서 챕터 8: Tabular Methods
Irealist | 2020.05.27 | Votes 0 | Views 724
Irealist 2020.05.27 0 724
25
[강화학습-5]Sutton 교과서 챕터 6: Temporal-Difference Learning
Irealist | 2020.05.23 | Votes 0 | Views 1052
Irealist 2020.05.23 0 1052
24
[강화학습-4]Sutton 교과서 챕터 5: Monte Carlo Methods
Irealist | 2020.05.19 | Votes 0 | Views 1414
Irealist 2020.05.19 0 1414
23
[강화학습-3]Sutton 교과서 챕터 4: Dynamic Programming
Irealist | 2020.05.19 | Votes 0 | Views 1230
Irealist 2020.05.19 0 1230