EDA 개념
데이터 분석에 있어서 매우 중요한, 초기 분석 단계를 EDA라고 한다.
EDA 목적
- 시각화 같은 도구를 통해서 패턴을 발견하거나
- 데이터의 특이성을 확인하거나
- 통계와 그래픽 (혹은 시각적 표현)을 통해서 가설을 검정하는 과정 등을 포함한다.
EDA 방법
EDA 방법에는 크게 2가지로 나눠진다.
1. Graphic
히트맵 예시
바 플롯 예시
플롯 예시
산점도 예시
2. Non-Graphic
그래픽적인 요소를 사용하지 않는 방법으로, 주로 Summary Statistics를 통해 데이터를 확인하는 방법
❗Numeric Data (숫자형 데이터)인 경우에 summary statistics를 제일 많이 활용
❗Categorical Data (범주형 데이터)인 경우에 occurence, frequency, tabulation를 활용
occurence: 발생, frequency: 빈도, tabulation: 표 (table)
Target Data
EDA를 할 때 타겟 데이터에 따라 방법이 나눠진다. 이 때 타겟 데이터 또한 2가지로 나눠진다.
Target Data: 우리가 예측 하고자 하는 data
- Univariate
- Muli-variate
Univariate
- 단변량
- 종속변수가 하나인 경우
- 대부분의 분석
- Univariate statistics summarize only one variable at a time.
Multi-variate
- 다변량
- 종속변수가 여러개인 경우
- PCA 분석, 요인 분석, 군집 분석
- Multivariate statistics compare more than two variables.
EDA와 데이터 시각화 차이
출처: https://www.mdpi.com/2220-9964/6/11/368/html
EDA
EDA(Exploratory Data Analysis)는 연구의 초기 혹은 데이터 정제(Clean Data) 이후 단계에서 이루어집니다. EDA 단계에서 얻은 이해는 알고리즘의 발전을 지원하고, 성능을 향상 시키는 데에 사용할 수 있습니다.
Data Visualization
반면 데이터 시각화(Data Visualization)는 분석 결과를 커뮤니케이션 하기 위해 연구의 마지막이자 의사결정 전 단계(Decision making)에서 주로 행해지는 방법론을 칭합니다.
“데이터 시각화(Data visualization)는 주로, 연구 후 분석 결과를 Communicate 하는 목적의 데이터 시각화를 칭하는 용어로 사용되는 경향이 있으나, 탐색적 데이터 분석(EDA)에서도 데이터 시각화를 주 방법론으로 사용한다”
'ALL NIGHT STUDY' 카테고리의 다른 글
Tidy 데이터 (0) | 2021.09.16 |
---|---|
Concat/Merge (0) | 2021.09.16 |
Pandas(Python Data Analysis Library) (0) | 2021.09.16 |
Feature Engineering (0) | 2021.09.16 |
데이터 전처리(Pre-Processing) (0) | 2021.09.16 |