ALL NIGHT STUDY 18

가설 검정

주어진 상황에 대해서, 하고자 하는 주장이 맞는지 아닌지를 판정하는 과정. 모집단의 실제 값에 대한 sample의 통계치를 사용해서 통계적으로 유의한지 아닌지 여부를 판정함 증명된 바가 없는 주장이나 가설을 표본 통계량에 입각하여, 주장이나 가설 진위 여부를 판단, 증명, 검정하는 통계적 추론 방식이다. 귀무 가설 직접 검정 가설이 되는 가설, 표본을 관찰하고 이 자료들이 이럴 거라고 세운 가설이다. 일단 귀무 가설이 옳다고 시작 귀무 가설은 기각이 목표(reject) 대안 가설 귀무 가설의 대안이 되는 가설, 귀무 가설이 기각이 되면 받아 들여지는 가설임 대안 가설은 채택이 목표다 유의 수준 귀무 가설이 실제로 옳은데도, 기각할 오류 귀무 가설을 기각할 때 따르는 위험 귀무 가설이 기각인지 채택인지 판..

ALL NIGHT STUDY 2021.09.16

미분

미분이란 단어는 작을 미(微)와 나눌 분(分). 즉 "작게 나눈다"라는 의미 즉 함수를 작게 나눈다는 뜻이다. X의 값을 아주 아주 미세하게 변화 시킨 후에 입력했을 때, 그 결과값이 어떻게 바뀌는지를 보는 것이 미분입니다. 미분과 DS의 관계? 간단한 예시로 단순 선형 회귀에서, 오차 함수는 MSE를 쓰는데, 이때 이 MSE를 최소로 하는 파라미터들을 구하기 위해서 미분을 활용하게 된다. 미분을 통해서 오차 함수의 도함수($f'(x)$)가 0이 되는 부분 (즉 변화율이 0인 부분)을 찾아서 오차 함수가 최소화되는 파라미터를 찾는 것입니다. 편미분(Partial Derivative) 상당히 많은 머신러닝의 Error 함수는 여러개의 파라미터 값을 통해 결정하는데, 이 때 파라미터가 2개 이상인 Error..

ALL NIGHT STUDY 2021.09.16

Tidy 데이터

"밑바닥 부터 시작할 필요 없는 데이터" tidy 데이터의 특징 각 변수는 개별의 열(column)으로 존재한다. 각 관측치는 행(row)를 구성한다. 각 표는 단 하나의 관측기준에 의해서 조직된 데이터를 저장한다. 만약 여러개의 표가 존재한다면, 적어도 하나이상의 열(column)이 공유되어야 한다. 지저분한 데이터 예시 깔끔한 데이터 예시 (tidy화) Tidy 데이터가 왜 필요할까? 데이터 처리에 가장 많은 시간이 소요되는 전처리 과정을 줄여 보자, 그러기 위해 처음부터 데이터를 표준화해서 만들자는 것입니다. 처음부터 기본적인 규칙을 가지고 데이터를 만들면, 모두의 시간을 아낄 수 있으니까. → 그래서 나온 것이 Tidy 데이터 형태이다. "각 변수가 열이고 각 관측치가 행이 되도록 배열된 데이터이..

ALL NIGHT STUDY 2021.09.16

Concat/Merge

Concat (Concatenate) concat은 '더한다' 혹은 '붙인다'라는 의미 데이터프레임을 더할 때, 일반적으로는 더해지는 행, 열의 이름이나 인덱스 값이 일치해야 합니다. 비어있는 부분에 대해서는 (결측치를 의미하는) NaN 값으로 채워지겠죠. pd.concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False, keys=None, levels=None, names=None, verify_integrity=False, sort=None, copy=True) # axis : 축 # join : 조인 방법 # join_axes : 조인 축 지정 # keys : 원본데이터 이름 지정 # ignore_index : 중복되는 로우 이름 색..

ALL NIGHT STUDY 2021.09.16

Pandas(Python Data Analysis Library)

데이터 조작 및 분석을 위한 Python 프로그래밍 언어 용으로 작성된 소프트웨어 라이브러리 입니다 . 특히 숫자 테이블과 시계열 을 조작하기 위한 데이터 구조 와 연산을 제공합니다 DataFrame 테이블 형식의 데이터 (tabular, rectangular grid 등으로 불림)를 다룰 때 사용한다. Data Set 하나 이상의 데이터베이스 테이블에 해당하며 , 테이블의 모든 열 은 특정 변수를 나타내고 각 행은 해당 데이터 세트의 주어진 레코드에 해당한다. Data Set을 DataFrame 형식으로 나타내면 아래 그림과 같다. column: age, sex, cp 등 열이 어떻게 구성되어야 할 지에 대한 구조를 제공한다. (Data Set의 Feature라고도 한다.) row: 레코드(record..

ALL NIGHT STUDY 2021.09.16

Feature Engineering

Feature Engineering? 머신러닝 알고리즘을 작동하기 위해 데이터에 대한 도메인 지식을 활용하여 특징(Feature)를 만들어내는 과정 Feature Engineering은 모델 성능에 미치는 영향이 크기 때문에 머신러닝 응용에 있어서 굉장히 중요한 단계이며, 전문성과 시간과 비용이 많이 드는 작업이다. Feature? 머신러닝은 매번 학습이 잘되어 결과가 나타나지 않는다. 즉, 머신 러닝의 성능은 어떤 데이터를 입력하는지가 굉장히 의존적이다. 먼저 충분한 데이터를 먼저 모으고 어떤 feature가 유용한지 아닌지 확인하는 과정을 거친다. feature가 유용한지 아닌지 확인하는 과정을 특징 선택(feature selection) 또는 특징 추출(feature extraction) 이라고 한..

ALL NIGHT STUDY 2021.09.16

데이터 전처리(Pre-Processing)

데이터 전처리란? 머신러닝 프로젝트에 사용하기 위해, 데이터를 모델이 이해할 수 있는 형태로 변환하거나 품질을 올리는 일련의 과정 DS 전문가가 가장 많이 시간을 쓰는 일은 데이터 전처리 과정이다. 모든 데이터 분석 프로젝트에서 데이터 전처리는 반드시 거쳐야 하는 과정이다. 대부분의 데이터 분석가가 좋아하지 않는 과정이지만, 분석 결과/인사이트와 모델 성능에 직접적인 영향을 미치는 과정이기 때문에 중요하게 다루어지는 과정이다. 데이터 전처리를 해야 하는 이유? Garbage In Garbage Out 쓰레기를 넣으면 쓰레기 결과가 나오기 떄문이다. 정제되지 않은 데이터를 dirty data라 하고, dirty data를 정제하는 것을 cleaning 또는 scrubbing한다고 한다. 데이터 중 dirt..

ALL NIGHT STUDY 2021.09.16

EDA(Exploratory Data Analysis)

EDA 개념 데이터 분석에 있어서 매우 중요한, 초기 분석 단계를 EDA라고 한다. EDA 목적 시각화 같은 도구를 통해서 패턴을 발견하거나 데이터의 특이성을 확인하거나 통계와 그래픽 (혹은 시각적 표현)을 통해서 가설을 검정하는 과정 등을 포함한다. EDA 방법 EDA 방법에는 크게 2가지로 나눠진다. 1. Graphic 히트맵 예시 바 플롯 예시 플롯 예시 산점도 예시 2. Non-Graphic 그래픽적인 요소를 사용하지 않는 방법으로, 주로 Summary Statistics를 통해 데이터를 확인하는 방법 ❗Numeric Data (숫자형 데이터)인 경우에 summary statistics를 제일 많이 활용 ❗Categorical Data (범주형 데이터)인 경우에 occurence, frequenc..

ALL NIGHT STUDY 2021.09.16