전체 글 142

ANOVA

2개 이상 그룹의 평균에 차이가 있는지를 가설 검정하는 방법 통계학에서 두 개 이상 다수의 집단을 서로 비교하고자 할 때 집단 내의 분산, 총평균 그리고 각 집단의 평균의 차이에 의해 생긴 집단 간 분산의 비교를 통해 만들어진 F분포를 이용하여 가설검정을 하는 방법 F 분포? F분포는 분산의 비교를 통해 얻어진 분포비율이다. 이 비율을 이용하여 각 집단의 모집단분산이 차이가 있는지에 대한 검정과 모집단평균이 차이가 있는지 검정하는 방법으로 사용한다. 즉 F = (군간변동)/(군내변동)이다. 만약 군내변동이 크다면 집단간 평균차이를 확인하는 것이 어렵다. 분산분석에서는 집단간의 분산의 동질성을 가정하고 하기 때문에 만약 분산의 차이가 크다면 그 차이를 유발한 변인을 찾아 제거해야 한다. 그렇지 못하면 분산..

ALL NIGHT STUDY 2021.09.16

Chi-squared-test

Chi-Squared test One-sample Chi-Squared test 카이제곱 검정은 카이제곱 분포에 관한 검정으로, 관찰된 빈도가 기대되는 빈도와 의미있게 다른지의 여부를 검정하기 위해 사용되는 검정방법이다. 자료가 빈도로 주어졌을 때, 특히 명목척도 자료의 분석에 이용한다. 귀무가설: 분포가 비슷하다. 대안 가설: 분포가 비슷하지 않다. 카이제곱을 구하는 방법은 (관찰값 - 평균값)^2 / 평균값 을 모든 관측값에 대해서 더하면 구할 수 있다. 하지만 카이제곱은 데이터마다 다르게 나오므로 chi-square 분포값을 → p-value로 바꾸는 과정이 필요하다. (표준화 된 값을 얻기 위해) 이때 scipy의 stats.chi2.pdf( ) 함수를 이용해서 구할 수 있다. Two sample..

ALL NIGHT STUDY 2021.09.16

Estimation/Sampling

기술 통계치(Descriptive Statistics) count, mean, standard dev, min, 1Q, median, 3Q, max 등의 데이터를 설명 하는 값(혹은 통계치)들 기술 통계치 시각화 box plot violin plot bag plot 추정 통계치 추론 통계은 모집단에 대한 어떤 미지의 양상을 알기 위해 통계학을 이용하여 추측하는 과정을 지칭한다. 통계학의 한 부분으로서 추론 통계학(Inferential statistics)이라고 불린다. 이것은 기술 통계학(descriptive statistics)과 구별되는 개념이다. 추론 통계에는 도수 확률(frequency probability)과 사전 확률(prior probability)을 기반으로 하는 베이즈 추론의 두 학파가 ..

ALL NIGHT STUDY 2021.09.16

T-test

T-test 모집단의 분산이나 표준편차를 알지 못할 때 모집단을 대표하는 표본으로부터 추정된 분산이나 표준편차를 가지고 검정 하는 방법 "두 모집단의 평균간의 차이는 없다”라는 귀무가설과 “두 모집단의 평균 간에 차이가 있다”라는 대립가설 중에 하나를 선택할 수 있도록 하는 통계적 검정방법이다. T-Value t값이란 t 검정에 이용되는 검정통계량으로, 두 집단의 차이의 평균(X)을 표준오차(SE)로 나눈 값 즉, [표준오차]와 [표본평균사이의 차이]의 비율이다. t 분포 (t-distribution) 평균이 0, 좌우 대칭을 이루며, 자유도(n-1) υ에 의해서 규정되는 수리적 분포로 왼쪽 그림과 같은 형태를 띤다. t값이 커질 수록 표준정규분포와 같은 형태를 띤다. 자유도와 영역 넓이에 따른 t값은 ..

ALL NIGHT STUDY 2021.09.16

가설 검정

주어진 상황에 대해서, 하고자 하는 주장이 맞는지 아닌지를 판정하는 과정. 모집단의 실제 값에 대한 sample의 통계치를 사용해서 통계적으로 유의한지 아닌지 여부를 판정함 증명된 바가 없는 주장이나 가설을 표본 통계량에 입각하여, 주장이나 가설 진위 여부를 판단, 증명, 검정하는 통계적 추론 방식이다. 귀무 가설 직접 검정 가설이 되는 가설, 표본을 관찰하고 이 자료들이 이럴 거라고 세운 가설이다. 일단 귀무 가설이 옳다고 시작 귀무 가설은 기각이 목표(reject) 대안 가설 귀무 가설의 대안이 되는 가설, 귀무 가설이 기각이 되면 받아 들여지는 가설임 대안 가설은 채택이 목표다 유의 수준 귀무 가설이 실제로 옳은데도, 기각할 오류 귀무 가설을 기각할 때 따르는 위험 귀무 가설이 기각인지 채택인지 판..

ALL NIGHT STUDY 2021.09.16

미분

미분이란 단어는 작을 미(微)와 나눌 분(分). 즉 "작게 나눈다"라는 의미 즉 함수를 작게 나눈다는 뜻이다. X의 값을 아주 아주 미세하게 변화 시킨 후에 입력했을 때, 그 결과값이 어떻게 바뀌는지를 보는 것이 미분입니다. 미분과 DS의 관계? 간단한 예시로 단순 선형 회귀에서, 오차 함수는 MSE를 쓰는데, 이때 이 MSE를 최소로 하는 파라미터들을 구하기 위해서 미분을 활용하게 된다. 미분을 통해서 오차 함수의 도함수($f'(x)$)가 0이 되는 부분 (즉 변화율이 0인 부분)을 찾아서 오차 함수가 최소화되는 파라미터를 찾는 것입니다. 편미분(Partial Derivative) 상당히 많은 머신러닝의 Error 함수는 여러개의 파라미터 값을 통해 결정하는데, 이 때 파라미터가 2개 이상인 Error..

ALL NIGHT STUDY 2021.09.16

Tidy 데이터

"밑바닥 부터 시작할 필요 없는 데이터" tidy 데이터의 특징 각 변수는 개별의 열(column)으로 존재한다. 각 관측치는 행(row)를 구성한다. 각 표는 단 하나의 관측기준에 의해서 조직된 데이터를 저장한다. 만약 여러개의 표가 존재한다면, 적어도 하나이상의 열(column)이 공유되어야 한다. 지저분한 데이터 예시 깔끔한 데이터 예시 (tidy화) Tidy 데이터가 왜 필요할까? 데이터 처리에 가장 많은 시간이 소요되는 전처리 과정을 줄여 보자, 그러기 위해 처음부터 데이터를 표준화해서 만들자는 것입니다. 처음부터 기본적인 규칙을 가지고 데이터를 만들면, 모두의 시간을 아낄 수 있으니까. → 그래서 나온 것이 Tidy 데이터 형태이다. "각 변수가 열이고 각 관측치가 행이 되도록 배열된 데이터이..

ALL NIGHT STUDY 2021.09.16

Concat/Merge

Concat (Concatenate) concat은 '더한다' 혹은 '붙인다'라는 의미 데이터프레임을 더할 때, 일반적으로는 더해지는 행, 열의 이름이나 인덱스 값이 일치해야 합니다. 비어있는 부분에 대해서는 (결측치를 의미하는) NaN 값으로 채워지겠죠. pd.concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False, keys=None, levels=None, names=None, verify_integrity=False, sort=None, copy=True) # axis : 축 # join : 조인 방법 # join_axes : 조인 축 지정 # keys : 원본데이터 이름 지정 # ignore_index : 중복되는 로우 이름 색..

ALL NIGHT STUDY 2021.09.16

Pandas(Python Data Analysis Library)

데이터 조작 및 분석을 위한 Python 프로그래밍 언어 용으로 작성된 소프트웨어 라이브러리 입니다 . 특히 숫자 테이블과 시계열 을 조작하기 위한 데이터 구조 와 연산을 제공합니다 DataFrame 테이블 형식의 데이터 (tabular, rectangular grid 등으로 불림)를 다룰 때 사용한다. Data Set 하나 이상의 데이터베이스 테이블에 해당하며 , 테이블의 모든 열 은 특정 변수를 나타내고 각 행은 해당 데이터 세트의 주어진 레코드에 해당한다. Data Set을 DataFrame 형식으로 나타내면 아래 그림과 같다. column: age, sex, cp 등 열이 어떻게 구성되어야 할 지에 대한 구조를 제공한다. (Data Set의 Feature라고도 한다.) row: 레코드(record..

ALL NIGHT STUDY 2021.09.16

Feature Engineering

Feature Engineering? 머신러닝 알고리즘을 작동하기 위해 데이터에 대한 도메인 지식을 활용하여 특징(Feature)를 만들어내는 과정 Feature Engineering은 모델 성능에 미치는 영향이 크기 때문에 머신러닝 응용에 있어서 굉장히 중요한 단계이며, 전문성과 시간과 비용이 많이 드는 작업이다. Feature? 머신러닝은 매번 학습이 잘되어 결과가 나타나지 않는다. 즉, 머신 러닝의 성능은 어떤 데이터를 입력하는지가 굉장히 의존적이다. 먼저 충분한 데이터를 먼저 모으고 어떤 feature가 유용한지 아닌지 확인하는 과정을 거친다. feature가 유용한지 아닌지 확인하는 과정을 특징 선택(feature selection) 또는 특징 추출(feature extraction) 이라고 한..

ALL NIGHT STUDY 2021.09.16