Statistical inference (통계적 추론): 주어진 자료를 이용하여 모집단의 특성을 결정지어주는 모수(parameter) $\theta$에 대한 정보를 이끌어내는 것. 크게 추정(estimation)과 가설검정(hypothesis testing)으로 분류된다.
Estimation (추정): 표본을 이용하여 모집단의 미지의 모수를 예측하는 과정
Estimator (추정량): 모수 $\theta$를 하나의 값으로 추측하는 통계량(statistic) $\hat \theta(X_1, \cdots, X_n)$ (확률변수)
Estimate (추정값, 추정치): 표본(sample)을 이용하여 구한 estimator의 측정값 $\hat \theta(x_1, \cdots, x_n)$ (상수)
1. Standard deviation(SD) vs Standard error of the mean(SEM)
1.1 정의
- 분산(variance): 확률변수가 기댓값으로부터 얼마나 떨어진 곳에 분포하는지를 가늠하는 숫자
- 표준편차(standard deviation): 자료의 산포도를 나타내는 수치로, 분산의 양의 제곱근 \({\displaystyle {\begin{aligned}\sigma &={\sqrt {\operatorname {E} \left[(X-\mu )^{2}\right]}}\\&={\sqrt {\operatorname {E} \left[X^{2}\right]+\operatorname {E} [-2\mu X]+\operatorname {E} \left[\mu ^{2}\right]}}\\&={\sqrt {\operatorname {E} \left[X^{2}\right]-2\mu \operatorname {E} [X]+\mu ^{2}}}\\&={\sqrt {\operatorname {E} \left[X^{2}\right]-2\mu ^{2}+\mu ^{2}}}\\&={\sqrt {\operatorname {E} \left[X^{2}\right]-\mu ^{2}}}\\&={\sqrt {\operatorname {E} \left[X^{2}\right]-(\operatorname {E} [X])^{2}}}\end{aligned}}}\)
- 편차(deviation): 관측값에서 평균 또는 중앙값(중간값, median)을 뺀 것
- 모 표준편차(population standard deviation, $\sigma$): 모집단의 표준편차
- 표본 표준편차(sample standard deviation, $s$): 표본의 표준편차 경중률(여러 관측값들 각각의 상대적인 신뢰도, weight)이 동일한 경우, 표본 내의 어떤 변인 $x$가 가지는 $n$개 표본 표준편차 $s$는 다음과 같다. \({\displaystyle s=\pm {\sqrt {\frac {\Sigma (x-{\overline {x}})^{2}}{n-1}}}}\)
- 표준오차(standard error): 표본분포의 표준편차
- 표본 평균 분포(sampling mean distribution): 표본의 평균(표본 평균)의 확률 분포
- 표본 평균의 분포는 표본의 크기 $n$이 충분히 크면 다음 사실이 근사적으로 성립한다.(중심 극한 정리) $ {\displaystyle {\bar {X}}\sim {\mathcal {N}}{\Big (}\mu ,\,{\frac {\sigma ^{2}}{n}}{\Big )}}{\displaystyle {\bar {X}}\sim {\mathcal {N}}{\Big (}\mu ,\,{\frac {\sigma ^{2}}{n}}{\Big )}}$
- (모)평균의 표준오차(standard error of the mean, SEM): 표본 평균 분포의 표준편차 \({\displaystyle {\sigma }_{\bar {x}}\ ={\frac {\sigma }{\sqrt {n}}}} \\ {\displaystyle {\sigma }_{\bar {x}}\ \approx {\frac {s}{\sqrt {n}}}}\)
더 자세한 내용은 고려대학교 홍성식 교수님의 강의자료를 참고
PREVIOUSEtc