ALL NIGHT STUDY

ANOVA

with_AI 2021. 9. 16. 02:40
  • 2개 이상 그룹의 평균에 차이가 있는지를 가설 검정하는 방법
  • 통계학에서 두 개 이상 다수의 집단을 서로 비교하고자 할 때 집단 내의 분산, 총평균 그리고 각 집단의 평균의 차이에 의해 생긴 집단 간 분산의 비교를 통해 만들어진 F분포를 이용하여 가설검정을 하는 방법

F 분포?

F분포는 분산의 비교를 통해 얻어진 분포비율이다. 이 비율을 이용하여 각 집단의 모집단분산이 차이가 있는지에 대한 검정과 모집단평균이 차이가 있는지 검정하는 방법으로 사용한다. 즉 F = (군간변동)/(군내변동)이다. 만약 군내변동이 크다면 집단간 평균차이를 확인하는 것이 어렵다. 분산분석에서는 집단간의 분산의 동질성을 가정하고 하기 때문에 만약 분산의 차이가 크다면 그 차이를 유발한 변인을 찾아 제거해야 한다. 그렇지 못하면 분산분석의 신뢰도는 나빠지게 된다.

F 분포 값이 높다는 것은?

  1. 다른 그룹끼리의 분산은 크고, 전체 그룹의 분산은 작다.
  2. 즉 다른 그룹끼리 분포가 다를 것이다!

CLT(중심 극한 정리)

  • Sample의 데이터가 많아질수록 sample의 평균은 정규분포에 근사한 형태가된다.
  • 동일한 확률분포를 가진 독립 확률 변수 n개의 평균의 분포는 n이 적당히 크다면 정규분포에 가까워진다는 정리이다.

모집단이 "평균이 mu이고, 표준편차가 sigma인 임의의 분포"를 이룬다고 할 때, 이 모집단으로부터 추출된 표본의 "표본의 크기 n이 충분히 크다" 면 표본 평균들이 이루는 분포는 " 평균이 mu 이고 표준편차가 sigma/sqrt(n) 인 정규분포" 에 근접한다.

중심극한정리가 왜 중요한 것일까?

  • 표본 수집을 기반으로 한 추리통계에서 아주 중요한 이론적 근거를 제시하기 때문이다.
  • 모집단이 어떤 분포를 가지고 있었던지 간에, 일단 표본의 크기가 충분히 크다면 표본 평균들의 분포가 모집단의 모수를 기반한 정규분포를 이룬다는 점을 이용하여 특정사건이 일어날 확률 값을 계산할 수 있게 된다
  • 즉, 중심극한정리는 표본 평균들이 이루는 표본분포와 모집단 간의 관계를 증명함으로써, 수집한 표본의 통계량을 이용해 모집단의 모수를 추정할 수 있는 수학적 근거를 마련해준다.

신뢰구간(CI)

  • 신뢰구간은 모수가 실제로 포함될 것으로 예측되는 범위
  • 집단 전체를 연구하는 것은 불가능, 따라서 샘플링된 데이터를 기반으로 모수의 범위를 추정하기 위해 사용됨
  • 신뢰구간에 모집단 실제 평균값이 포함될 확률을 CI신뢰수준이라고 한다.
  • 보통 95%의 신뢰수준이 사용된다.

신뢰구간의 특징

  • 신뢰구간이 좁을 수록, 모집단 평균 추정치가 정확해진다.
  • 일반적으로 관측개수가 클수록, 신뢰구간이 좁아진다.

→ 따라서 표본이 클수록 더 정확하게 모집단 평균을 추정 할 수 있다.

'ALL NIGHT STUDY' 카테고리의 다른 글

벡터와 매트릭스  (0) 2021.09.16
조건부 확률  (0) 2021.09.16
Chi-squared-test  (0) 2021.09.16
Estimation/Sampling  (0) 2021.09.16
T-test  (0) 2021.09.16