확률 및 통계

산포도, 분산, 표준편차, 사분위

with_AI 2022. 5. 10. 15:45

산포도

  • 대표값을 중심으로 자료들이 얼마나 흩어져 있는 지
  • 하나의 수치로서 표현
  • 수치가 작을 수록 자료들이 대표값에 밀집
  • 수치가 클 수록 대표값을 중심으로 멀리 흩어져 있다.
  • 분산, 표준편차, 사분위

 

편차

  • 산포도를 구하는 첫걸음
  • 각 데이터가 평균으로부터 어느정도 떨어져있는지를 나타내는 지표
  • 평균과 한 데이터 값의 차이값
  • 편차 값들의 평균은 0이다.

 

따라서 편차 평균으로는 산포도를 계산 할 수 없다. -> 분산 사용

 

 

분산

  • 편차의 제곱을 합산하여 평균을 계산한 값
  • 편차의 평균은 항상 0이 되는 문제를 고려한 것임
  • 절대값 보다는 제곱값을 더 활용 많이한다.

 

Pandas 분산값과 Numpy 분산값은 다르다.
Pandas var()함수로 계산된 분산값은 표본분산이 아닌, 불편분산이다.

ddof = 0 이라는 옵션을 직접 입력하면 동일한 결과를 확인할 수 있다. (자유도 차이)

 

 

표준편차

  • 평균의 단위는 원래 데이터 단위와 다르지 않지만
  • 분산의 단위는 점수의 제곱으로 표현되는 점에서 이해하기 어려운 단위이다. (제곱을 했으니,,,)
  • 따라서 분산에 제곱근을 취하여 원래 데이터와 동일한 단위를 쓰도록 만들어진 산포도의 지표를 표준편차라고 한다.

 

범위와 사분위 범위

 

범위

  • 데이터의 최대값과 최소값만으로 산포도를 표현하는 방법
  • 분산 혹은 표준편차와는 달리 데이터 전체를 담은 표현 방식이 아니다
  • 최대 - 최소 차이가 크면 산포도가 크고, 차이가 작으면 산포도가 작다는 것으로 표현
  • 값을 2개만 활용하기 때문에 개략적인 지표임, 수준이 낮다.

 

사분위 범위

  • 데이터의 하위 25%, 50%, 75%에 위치하는 값으로 표현된 범위
  • Q3 - Q1 을 사분위 범위 IQR로 정의한다.

 

사분위 범위 특징

  • 이상값을 반영한 산포도를 표현하는 것에 더욱 효과적
  • 사분위 범위는 중앙값에 대해 정의 되는 산포도 지표이다.

 

데이터의 대표값/ 산포도 한번에 확인 하는 describe()

 

데이터 수

평균/표준편차

최소값, Q1, Q2, Q3, 최대값