통계적 지식

ALL NIGHT STUDY

통계적 지식

with_AI 2021. 9. 16. 22:25

분산(Variance)

데이터가 얼마나 퍼져있는지를 측정하는 방법
각 값들의 평균으로부터 차이의 제곱 평균
평균 먼저 계산 후 분산 계산

표준편차(Standard Deviation)

분산의 값에 sqrt를 씌운 값
표준편차가 작을수록 평균값에서 변량들의 거리가 가깝다.
분산은 수치가 너무 커서, 제곱근으로 적당하게 줄인 값이다.

공분산(Covariance)

Covariance란, 1개의 변수 값이 변화할 때 다른 변수가 어떠한 연관성을 나타내며 변하는지를 측정하는 것입니다.

첫번째 그래프의 경우, y의 값이 높을때 x 의 값은 낮습니다. 이는 음의 (negative) 공분산 값을 갖는다 라고 표현합니다.
두번째 그래프에서는 양 변수의 높고 낮음에 대하여 관련성을 알 수 없습니다. 그러므로 이러한 형태는 0에 가까운 공분산 값을 갖습니다.
마지막 그래프에서, y 값이 낮을때 x의 값도 마찬가지로 낮으며, 높을때는 같이 높아진다는 것을 확인 할 수 있습니다. 이 경우 양 변수간의 공분산 값은 양의 (positive)값을 기대 할 수 있습니다.

큰 값의 공분산은 두 변수간의 큰 연관성을 나타냅니다.

그러나, 만약 변수들이 다른 스케일을 가지고 있다면 공분산은 실제 변수의 연관성에 관계 없이 영향을 받게 될 것입니다.

다시 말하면 만약 두 변수가 연관성이 적더라도 큰 스케일을 가지고 있다면, 연관이 높지만 스케일이 작은 변수들에 비해서 높은 공분산 값을 가지게 될 것입니다.

상관계수(Correlation coefficient)

분산에서 스케일을 조정하기 위해 표준편차를 사용했던 것처럼,

이번에도 공분산의 스케일을 조정할 수 있습니다.

공분산을 두 변수의 표준편차로 각각 나눠주면 스케일을 조정할 수 있으며 상관계수라고 부릅니다.

상관계수는 -1에서 1까지로 정해진 범위 안의 값만을 갖으며 선형연관성이 없는 경우 0에 근접하게 됩니다.

상관계수를 사용하는 이유

공분산은 이론상 모든 값을 가질 수 있지만, 상관계수는 1 ~ 1 사이로 정해져 비교하기가 쉽습니다.
공분산은 항상 스케일, 단위를 포함하고 있지만, 상관계수는 이에 영향을 받지 않습니다.
상관계수는 데이터의 평균 혹은 분산의 크기에 영향을 받지 않습니다.

직교(Orthogonality)

벡터 혹은 매트릭스가 서로 수직으로 있는 상태
수직인 벡터만 데이터 끼리 상관 관계가 전혀 없다 → 이것으로 데이터 상관관계를 파악
임의의 두 벡터의 내적값이 0이라면 서로 수직으로 배치

단위 벡터

길이가 1인 벡터를 단위 벡터라고 한다.

단위 벡터는 노름이 1인 원소이다.

벡터의 정규화를 통해서 단위 벡터를 만들 수 있다.

기본 단위 벡터는

i 번째 성분 만이 크기가 1이고 나머지 성분 모두가 0인 벡터이다.

Span

주어진 두 벡터의 (합이나 차와 같은) 조합으로 만들 수 있는 모든 가능한 벡터의 집합입니다
선형 관계의 벡터는 같은 선상에 있는 경우로, 두 벡터를 조합해서 새로운 벡터를 생성 할 수 없다.
이러한 벡터의 Span은 평면 공간이 아닌, 선으로 제한된다.
반대로 다른 선상에 있는 벡터들은 선형적으로 독립되어 있다고 표현
두 벡터로 모든 벡터를 조합해 만들어 낼 수 있다.

Basis

벡터 공간 V의 basis는 V를 채울 수 있는 선형 관계에 있지 않은 벡터들의 모음

Rank

매트리스 열을 이루고 있는 벡터들로 만들 수 있는 공간의 차원
매트릭스 차원과는 다를 수 있다. Why? 선형관계를 이루는 벡터들 때문에
Rank를 확인하는 방법은 Gaussian Elimination이 있다.

Gaussian Elimination

주어진 매트릭스를 Row-Echelon form으로 바꾸는 계산과정
왼쪽에 1 그 이후 부분은 0 으로 이뤄진 형태
연립 일차 방정식을 풀이하는 알고리즘
가우스 소거법은 행렬식과 역행렬의 계산에도 응용됨

마지막 줄이 0 , 0 ,0 ,0 ... 이 될때까지 계산하는 것이 가우시안 소거법

Rank가 2라는 뜻은 R^2만을 벡터들로 만들어 낼 수 있다는 것을 의미

Linear Projection

데이터를 표기하기 위해 x y 라는 2개의 feature가 존재
투영을 하게 되면
데이터를 표기하기 위해 x만, 즉 1개의 feature가 필요함
y 축의 데이터 특성 삭제
data를 저장하기 위한 메모리를 줄일 수 있다.
벡터의 관점에서 보면 하나의 벡터를 다른 벡터로 옮겨서 표현 하는 것을 말한다.분산(Variance)

'ALL NIGHT STUDY' 카테고리의 다른 글

퍼셉트론과 인공신경망 (0)	2021.09.23
벡터와 차원축소 (0)	2021.09.16
벡터와 매트릭스 (0)	2021.09.16
조건부 확률 (0)	2021.09.16
ANOVA (0)	2021.09.16

현재글통계적 지식

매일코딩

코테문법, 이코테, 코테준비, 오픈소스컨트리뷰션아카데미, NoSQL, 필수문법, Colab, 파이썬코테, 문법, 자기소개, db, 코랩, json, 합격꿀팁, openup, mongoDB, 코테, 파이썬, 나동빈, 실전문법,

Today :
Yesterday :

일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

매일코딩