전체 글 142

데이터 전처리(Pre-Processing)

데이터 전처리란? 머신러닝 프로젝트에 사용하기 위해, 데이터를 모델이 이해할 수 있는 형태로 변환하거나 품질을 올리는 일련의 과정 DS 전문가가 가장 많이 시간을 쓰는 일은 데이터 전처리 과정이다. 모든 데이터 분석 프로젝트에서 데이터 전처리는 반드시 거쳐야 하는 과정이다. 대부분의 데이터 분석가가 좋아하지 않는 과정이지만, 분석 결과/인사이트와 모델 성능에 직접적인 영향을 미치는 과정이기 때문에 중요하게 다루어지는 과정이다. 데이터 전처리를 해야 하는 이유? Garbage In Garbage Out 쓰레기를 넣으면 쓰레기 결과가 나오기 떄문이다. 정제되지 않은 데이터를 dirty data라 하고, dirty data를 정제하는 것을 cleaning 또는 scrubbing한다고 한다. 데이터 중 dirt..

ALL NIGHT STUDY 2021.09.16

EDA(Exploratory Data Analysis)

EDA 개념 데이터 분석에 있어서 매우 중요한, 초기 분석 단계를 EDA라고 한다. EDA 목적 시각화 같은 도구를 통해서 패턴을 발견하거나 데이터의 특이성을 확인하거나 통계와 그래픽 (혹은 시각적 표현)을 통해서 가설을 검정하는 과정 등을 포함한다. EDA 방법 EDA 방법에는 크게 2가지로 나눠진다. 1. Graphic 히트맵 예시 바 플롯 예시 플롯 예시 산점도 예시 2. Non-Graphic 그래픽적인 요소를 사용하지 않는 방법으로, 주로 Summary Statistics를 통해 데이터를 확인하는 방법 ❗Numeric Data (숫자형 데이터)인 경우에 summary statistics를 제일 많이 활용 ❗Categorical Data (범주형 데이터)인 경우에 occurence, frequenc..

ALL NIGHT STUDY 2021.09.16