확률 및 통계 10

푸아송 분포

푸아송 분포 임의의 사건이 단위 시간당 발생하는 건수에 따른 확률 ㅂ누포 취할 수 있는 값: 0,1,2,3 ... 파라미터: lambda는 양의 실수 Poi(lambda) 하루 평균 2건의 교통사고가 발생하는 지역에서 하루 교통사고 발생 건수 Poi(2) 이 지역에서 하루 교통사고가 한 건도 일어나지 않을 확률 = 1/32 람다라는 값을 미리 알아야 쓸 수 있는 분포임 이산 확률 분포 정리

확률 및 통계 2022.05.16

베르누이 분포

비모수적 기법 VS 모수적 기법 비모수적 기법 모집단의 확률 분포에 대한 특별한 가정없이 평균과 분산이라는 지표를 추정 모수적 기법 모집단의 성질에 따라 어떤 확률 분포의 형태인지를 미리 가정한 후 기대값 혹은 분산을 결정하는 소수의 파라미터를 추정 모집단의 성질에 따른 확률분포의 형태? 이산 확률 분포의 예 : 베르누이, 이항, 기하, 푸아송 베르누이 분포 가장 기본적인 이산형 확률 분포 취할 수 있는 값은 0,1 1과 0이 나올 확률을 각각 더하면 1이 되어야 하므로, 그 확률을 각각 p와 1-p로 정의 Bern(p)로 표기 동전을 던져서 앞면이 나올 확률 X = Bern(1/2) = 1/2 주사위를 1회 굴려서 6이 나오지 않을 확률 X = 1 - Bern(1/6) = 5/6

확률 및 통계 2022.05.16

시각화, 도수분포표, 히스토그램, boxplot

시각화 도수분포표 데이터가 가지는 값들을 구간으로 나누고 각 구간에 데이터가 포함되는지 세는 방법 분할된 구간과 데이터의 개수를 표로 정리한 것 numpy.histogram을 활용하여 쉽게 계산 활용 가능 분포를 쉽게 확인 가능 히스토그램 도수분포표를 막대그래프로 나타낸 것 시각적으로 파악 가능 matplotlib를 활용하여 표현 boxplot 데이터의 산포도를 표현 하는 그림 분포와 이상값을 시각적으로 파악 박스 바깥 가로선들은 이상값을 분리 경계 밖 데이터는 이상값이다.

확률 및 통계 2022.05.16

정규화, 표준화, 편찻값

정규화 평균과 분산이 다른 데이터 분포에서 상대적인 수준을 파악하기 위해서 Normalization 데이터를 통일된 지표로 변환 표준화와 편차값이 활용된다. 표준화 데이터에서 평균을 뺴고 표준편차로 나누는 작업 표준화된 데이터는 표준화 변량 혹은 Z 점수로 불린다. 표준화 변환 이후 평균, 표준편차 측정 평균은 0, 표준편차는 1로 변경 편차값 평균이 50, 표준편차가 10이 되도록 정규화한 값

확률 및 통계 2022.05.16

산포도, 분산, 표준편차, 사분위

산포도 대표값을 중심으로 자료들이 얼마나 흩어져 있는 지 하나의 수치로서 표현 수치가 작을 수록 자료들이 대표값에 밀집 수치가 클 수록 대표값을 중심으로 멀리 흩어져 있다. 분산, 표준편차, 사분위 편차 산포도를 구하는 첫걸음 각 데이터가 평균으로부터 어느정도 떨어져있는지를 나타내는 지표 평균과 한 데이터 값의 차이값 편차 값들의 평균은 0이다. 따라서 편차 평균으로는 산포도를 계산 할 수 없다. -> 분산 사용 분산 편차의 제곱을 합산하여 평균을 계산한 값 편차의 평균은 항상 0이 되는 문제를 고려한 것임 절대값 보다는 제곱값을 더 활용 많이한다. Pandas 분산값과 Numpy 분산값은 다르다. Pandas var()함수로 계산된 분산값은 표본분산이 아닌, 불편분산이다. ddof = 0 이라는 옵션을..

확률 및 통계 2022.05.10

대표값, 평균값, 중앙값, 최빈값

데이터 분석 평균 혹은 분산 등의 수치 지표에 따라 데이터를 요약 그림을 그려 시각화 Pandas->데이터 관리 Numpy->수치 계산 특화 수치 표현 규칙 precision을 활용하여 유효숫자를 설정 대표값 주어진 데이터를 대표 하나의 값으로 요약한 지표 평균값, 중앙값, 최빈값 평균값 (Mean / Average) 가장 잘 얼려진 대표값/ 계산 방식 간단 일상생활에서 가장 많이 쓰임 데이터 값을 모두 더하고, 갯수로 나눈다. 중앙값 (Median) 데이터를 크기 순서대로 나열했을 때, 정확하게 중앙에 위치한 값 데이터의 이상값이 존재할 때 평균값보다 대표값을 더 잘 표현함 이상값에 영향을 덜 받는다. 최빈값 데이터에서 가장 많이 나타나는 값 주로 범주형 변수의 대표값을 구할 때 사용됨

확률 및 통계 2022.05.10

Colab 환경 셋팅, 데이터 종류, 변수 분류

코랩 환경 셋팅 Scikit-learn 무료 데이터 호출 및 DataFrame으로 변환 보스턴 지역 주택 가격 데이터를 사용 원하는 컬럼 뽑아내기 데이터 크기 확인하기 질적 변수 변수의 값이 특정 범주에 포함되도록 표현가능한 변수 (색상, 성별, 종교) 양적 변수 변수의 값을 숫자로 나타낼 수 있는 변수 (키, 몸무게, 소득, 통행량) 이산변수 셀 수 있는 변수 (층 수, 직원 수, 불량품 수) 연속 변수 셀 수 없는 변수 변수의 각 값 사이에 무수히 많으 또 다른 값들이 존재하는 특성 (사람의 키, 몸무게, 나이, 소득) 간격 변수 대소 관계와 함께 그 차이에도 의미를 두는 변수 비율 변수 대소 관계 차이 비 모두에 의미를 두는 변수 명목 변수 단순히 분류하기 위한 변수 순위 변수 순서 관계 및 대소 ..

확률 및 통계 2022.05.10