ALL NIGHT STUDY

EDA(Exploratory Data Analysis)

with_AI 2021. 9. 16. 01:52

EDA 개념

데이터 분석에 있어서 매우 중요한, 초기 분석 단계를 EDA라고 한다.

EDA 목적

  • 시각화 같은 도구를 통해서 패턴을 발견하거나
  • 데이터의 특이성을 확인하거나
  • 통계와 그래픽 (혹은 시각적 표현)을 통해서 가설을 검정하는 과정 등을 포함한다.

EDA 방법

EDA 방법에는 크게 2가지로 나눠진다.

 

 

1. Graphic

 

히트맵 예시

 

 

바 플롯 예시

플롯 예시

 

산점도 예시

 

2. Non-Graphic

그래픽적인 요소를 사용하지 않는 방법으로, 주로 Summary Statistics를 통해 데이터를 확인하는 방법

 

Numeric Data (숫자형 데이터)인 경우에 summary statistics를 제일 많이 활용

 

Categorical Data (범주형 데이터)인 경우에 occurence, frequency, tabulation를 활용

 

occurence: 발생, frequency: 빈도, tabulation: 표 (table)

 


Target Data

EDA를 할 때 타겟 데이터에 따라 방법이 나눠진다. 이 때 타겟 데이터 또한 2가지로 나눠진다.

Target Data: 우리가 예측 하고자 하는 data

  1. Univariate
  2. Muli-variate

Univariate

  • 단변량
  • 종속변수가 하나인 경우
  • 대부분의 분석
  • Univariate statistics summarize only one variable at a time.

Multi-variate

  • 다변량
  • 종속변수가 여러개인 경우
  • PCA 분석, 요인 분석, 군집 분석
  • Multivariate statistics compare more than two variables.

EDA와 데이터 시각화 차이

출처: https://www.mdpi.com/2220-9964/6/11/368/html

EDA

EDA(Exploratory Data Analysis)는 연구의 초기 혹은 데이터 정제(Clean Data) 이후 단계에서 이루어집니다. EDA 단계에서 얻은 이해는 알고리즘의 발전을 지원하고, 성능을 향상 시키는 데에 사용할 수 있습니다.

Data Visualization

반면 데이터 시각화(Data Visualization)는 분석 결과커뮤니케이션 하기 위해 연구의 마지막이자 의사결정 전 단계(Decision making)에서 주로 행해지는 방법론을 칭합니다.

“데이터 시각화(Data visualization)는 주로, 연구 후 분석 결과를 Communicate 하는 목적의 데이터 시각화를 칭하는 용어로 사용되는 경향이 있으나, 탐색적 데이터 분석(EDA)에서도 데이터 시각화를 주 방법론으로 사용한다”

'ALL NIGHT STUDY' 카테고리의 다른 글

Tidy 데이터  (0) 2021.09.16
Concat/Merge  (0) 2021.09.16
Pandas(Python Data Analysis Library)  (0) 2021.09.16
Feature Engineering  (0) 2021.09.16
데이터 전처리(Pre-Processing)  (0) 2021.09.16