- 2개 이상 그룹의 평균에 차이가 있는지를 가설 검정하는 방법
- 통계학에서 두 개 이상 다수의 집단을 서로 비교하고자 할 때 집단 내의 분산, 총평균 그리고 각 집단의 평균의 차이에 의해 생긴 집단 간 분산의 비교를 통해 만들어진 F분포를 이용하여 가설검정을 하는 방법
F 분포?
F분포는 분산의 비교를 통해 얻어진 분포비율이다. 이 비율을 이용하여 각 집단의 모집단분산이 차이가 있는지에 대한 검정과 모집단평균이 차이가 있는지 검정하는 방법으로 사용한다. 즉 F = (군간변동)/(군내변동)이다. 만약 군내변동이 크다면 집단간 평균차이를 확인하는 것이 어렵다. 분산분석에서는 집단간의 분산의 동질성을 가정하고 하기 때문에 만약 분산의 차이가 크다면 그 차이를 유발한 변인을 찾아 제거해야 한다. 그렇지 못하면 분산분석의 신뢰도는 나빠지게 된다.
F 분포 값이 높다는 것은?
- 다른 그룹끼리의 분산은 크고, 전체 그룹의 분산은 작다.
- 즉 다른 그룹끼리 분포가 다를 것이다!
CLT(중심 극한 정리)
- Sample의 데이터가 많아질수록 sample의 평균은 정규분포에 근사한 형태가된다.
- 동일한 확률분포를 가진 독립 확률 변수 n개의 평균의 분포는 n이 적당히 크다면 정규분포에 가까워진다는 정리이다.
모집단이 "평균이 mu이고, 표준편차가 sigma인 임의의 분포"를 이룬다고 할 때, 이 모집단으로부터 추출된 표본의 "표본의 크기 n이 충분히 크다" 면 표본 평균들이 이루는 분포는 " 평균이 mu 이고 표준편차가 sigma/sqrt(n) 인 정규분포" 에 근접한다.
중심극한정리가 왜 중요한 것일까?
- 표본 수집을 기반으로 한 추리통계에서 아주 중요한 이론적 근거를 제시하기 때문이다.
- 모집단이 어떤 분포를 가지고 있었던지 간에, 일단 표본의 크기가 충분히 크다면 표본 평균들의 분포가 모집단의 모수를 기반한 정규분포를 이룬다는 점을 이용하여 특정사건이 일어날 확률 값을 계산할 수 있게 된다
- 즉, 중심극한정리는 표본 평균들이 이루는 표본분포와 모집단 간의 관계를 증명함으로써, 수집한 표본의 통계량을 이용해 모집단의 모수를 추정할 수 있는 수학적 근거를 마련해준다.
신뢰구간(CI)
- 신뢰구간은 모수가 실제로 포함될 것으로 예측되는 범위
- 집단 전체를 연구하는 것은 불가능, 따라서 샘플링된 데이터를 기반으로 모수의 범위를 추정하기 위해 사용됨
- 신뢰구간에 모집단 실제 평균값이 포함될 확률을 CI신뢰수준이라고 한다.
- 보통 95%의 신뢰수준이 사용된다.
신뢰구간의 특징
- 신뢰구간이 좁을 수록, 모집단 평균 추정치가 정확해진다.
- 일반적으로 관측개수가 클수록, 신뢰구간이 좁아진다.
→ 따라서 표본이 클수록 더 정확하게 모집단 평균을 추정 할 수 있다.
'ALL NIGHT STUDY' 카테고리의 다른 글
벡터와 매트릭스 (0) | 2021.09.16 |
---|---|
조건부 확률 (0) | 2021.09.16 |
Chi-squared-test (0) | 2021.09.16 |
Estimation/Sampling (0) | 2021.09.16 |
T-test (0) | 2021.09.16 |