T-test
- 모집단의 분산이나 표준편차를 알지 못할 때 모집단을 대표하는 표본으로부터 추정된 분산이나 표준편차를 가지고 검정 하는 방법
- "두 모집단의 평균간의 차이는 없다”라는 귀무가설과 “두 모집단의 평균 간에 차이가 있다”라는 대립가설 중에 하나를 선택할 수 있도록 하는 통계적 검정방법이다.
T-Value
- t값이란 t 검정에 이용되는 검정통계량으로, 두 집단의 차이의 평균(X)을 표준오차(SE)로 나눈 값 즉, [표준오차]와 [표본평균사이의 차이]의 비율이다.
t 분포 (t-distribution)
- 평균이 0, 좌우 대칭을 이루며, 자유도(n-1) υ에 의해서 규정되는 수리적 분포로 왼쪽 그림과 같은 형태를 띤다. t값이 커질 수록 표준정규분포와 같은 형태를 띤다. 자유도와 영역 넓이에 따른 t값은 t분포표(오른쪽 그림)를 참조하여 t 값을 찾는다.
단측 검정 vs 양측 검정
- 단측은 기각역이 한쪽으로 쏠려있다. 이때 면적의 값은 $alpha$
- 양측은 기각역이 양쪽으로 나눠진다. 이떄 면적은 각각 $alpha/2$
T-test 특징
- 독립된 두 집단 (또는 대응표본t검정의 경우에는 한 집단)의 평균 차이가 있는지를 검사하는 방법이다.30개 이하의 비교적 적은 수의 표본에 대해 활용한다.
- (표본의 수가 31 이상이면 정규분포와 비슷해지기 때문에 t분포 대신 정규분포를 사용해도 괜찮다. 물론 정규분포와 일치하지는 않다. 대부분의 t분포표가 표본이 30인 경우까지만 표시하고 있기 때문에 표준정규분포표를 이용하기도 한다.)
- 모집단의 표준편차를 알 수 없을 때 사용한다. 따라서 모집단의 표준편차 σ 대신 표본의 표준편차 s 를 사용한다.
T-test를 사용 하기 위한 조건
- 독립성
- 등분산성
- 정규성
독립성은 두 그룹이 연결되있는 쌍인지
등분산성은 두 그룹의 어느정도 유사한 수준의 분산 값을 가지는지
정규성은 데이터가 정규성을 가지는지를 나타낸다.
위 그림에서 X와 X' 은 연결되있는 쌍이고, X와 Y는 연결되지 않은 쌍이다.
위 그림에서 등분산 그래프를 보면 두 그룹의 분산이 비슷하다 → T-test가 가능하다.
이분산 그래프에서는 두 그룹의 분산이 다르므로 → T-test가 불가능하다.
데이터가 정규 분포를 따르는지 확인해야 T-Test가 가능하다. ⇒ 정규성
Type of Error
Type of error에는 1종 오류와 2종 오류가 있다.
- 1종 오류
- 귀무가설이 실제로 참이지만, 귀무가설을 기각하는 오류
- 실제로는 음성인 것을 양성으로 판단
- 거짓 양성 또는 알파 오류라고 불림
- 귀무가설이 5% 확률로 잘못 기각된다는 뜻이다.
- 2종 오류
- 귀무가설이 실제로 거짓이지만, 귀무가설을 채택하는 오류
- 실제 양성인 것을 음성으로 판단
- 거짓 음성 또는 베타 오류라고 불림
'ALL NIGHT STUDY' 카테고리의 다른 글
Chi-squared-test (0) | 2021.09.16 |
---|---|
Estimation/Sampling (0) | 2021.09.16 |
가설 검정 (0) | 2021.09.16 |
미분 (0) | 2021.09.16 |
Tidy 데이터 (0) | 2021.09.16 |