데이터 분석
- 평균 혹은 분산 등의 수치 지표에 따라 데이터를 요약
- 그림을 그려 시각화
- Pandas->데이터 관리
- Numpy->수치 계산 특화
수치 표현 규칙
precision을 활용하여 유효숫자를 설정
대표값
- 주어진 데이터를 대표
- 하나의 값으로 요약한 지표
- 평균값, 중앙값, 최빈값
평균값 (Mean / Average)
- 가장 잘 얼려진 대표값/ 계산 방식 간단
- 일상생활에서 가장 많이 쓰임
- 데이터 값을 모두 더하고, 갯수로 나눈다.
중앙값 (Median)
- 데이터를 크기 순서대로 나열했을 때, 정확하게 중앙에 위치한 값
- 데이터의 이상값이 존재할 때 평균값보다 대표값을 더 잘 표현함
- 이상값에 영향을 덜 받는다.
최빈값
- 데이터에서 가장 많이 나타나는 값
- 주로 범주형 변수의 대표값을 구할 때 사용됨
'확률 및 통계' 카테고리의 다른 글
베르누이 분포 (0) | 2022.05.16 |
---|---|
시각화, 도수분포표, 히스토그램, boxplot (0) | 2022.05.16 |
정규화, 표준화, 편찻값 (0) | 2022.05.16 |
산포도, 분산, 표준편차, 사분위 (0) | 2022.05.10 |
Colab 환경 셋팅, 데이터 종류, 변수 분류 (0) | 2022.05.10 |