산포도
- 대표값을 중심으로 자료들이 얼마나 흩어져 있는 지
- 하나의 수치로서 표현
- 수치가 작을 수록 자료들이 대표값에 밀집
- 수치가 클 수록 대표값을 중심으로 멀리 흩어져 있다.
- 분산, 표준편차, 사분위
편차
- 산포도를 구하는 첫걸음
- 각 데이터가 평균으로부터 어느정도 떨어져있는지를 나타내는 지표
- 평균과 한 데이터 값의 차이값
- 편차 값들의 평균은 0이다.
따라서 편차 평균으로는 산포도를 계산 할 수 없다. -> 분산 사용
분산
- 편차의 제곱을 합산하여 평균을 계산한 값
- 편차의 평균은 항상 0이 되는 문제를 고려한 것임
- 절대값 보다는 제곱값을 더 활용 많이한다.
Pandas 분산값과 Numpy 분산값은 다르다.
Pandas var()함수로 계산된 분산값은 표본분산이 아닌, 불편분산이다.
ddof = 0 이라는 옵션을 직접 입력하면 동일한 결과를 확인할 수 있다. (자유도 차이)
표준편차
- 평균의 단위는 원래 데이터 단위와 다르지 않지만
- 분산의 단위는 점수의 제곱으로 표현되는 점에서 이해하기 어려운 단위이다. (제곱을 했으니,,,)
- 따라서 분산에 제곱근을 취하여 원래 데이터와 동일한 단위를 쓰도록 만들어진 산포도의 지표를 표준편차라고 한다.
범위와 사분위 범위
범위
- 데이터의 최대값과 최소값만으로 산포도를 표현하는 방법
- 분산 혹은 표준편차와는 달리 데이터 전체를 담은 표현 방식이 아니다
- 최대 - 최소 차이가 크면 산포도가 크고, 차이가 작으면 산포도가 작다는 것으로 표현
- 값을 2개만 활용하기 때문에 개략적인 지표임, 수준이 낮다.
사분위 범위
- 데이터의 하위 25%, 50%, 75%에 위치하는 값으로 표현된 범위
- Q3 - Q1 을 사분위 범위 IQR로 정의한다.
사분위 범위 특징
- 이상값을 반영한 산포도를 표현하는 것에 더욱 효과적
- 사분위 범위는 중앙값에 대해 정의 되는 산포도 지표이다.
데이터의 대표값/ 산포도 한번에 확인 하는 describe()
데이터 수
평균/표준편차
최소값, Q1, Q2, Q3, 최대값
'확률 및 통계' 카테고리의 다른 글
베르누이 분포 (0) | 2022.05.16 |
---|---|
시각화, 도수분포표, 히스토그램, boxplot (0) | 2022.05.16 |
정규화, 표준화, 편찻값 (0) | 2022.05.16 |
대표값, 평균값, 중앙값, 최빈값 (0) | 2022.05.10 |
Colab 환경 셋팅, 데이터 종류, 변수 분류 (0) | 2022.05.10 |