전체 글 142

베르누이 분포

비모수적 기법 VS 모수적 기법 비모수적 기법 모집단의 확률 분포에 대한 특별한 가정없이 평균과 분산이라는 지표를 추정 모수적 기법 모집단의 성질에 따라 어떤 확률 분포의 형태인지를 미리 가정한 후 기대값 혹은 분산을 결정하는 소수의 파라미터를 추정 모집단의 성질에 따른 확률분포의 형태? 이산 확률 분포의 예 : 베르누이, 이항, 기하, 푸아송 베르누이 분포 가장 기본적인 이산형 확률 분포 취할 수 있는 값은 0,1 1과 0이 나올 확률을 각각 더하면 1이 되어야 하므로, 그 확률을 각각 p와 1-p로 정의 Bern(p)로 표기 동전을 던져서 앞면이 나올 확률 X = Bern(1/2) = 1/2 주사위를 1회 굴려서 6이 나오지 않을 확률 X = 1 - Bern(1/6) = 5/6

확률 및 통계 2022.05.16

시각화, 도수분포표, 히스토그램, boxplot

시각화 도수분포표 데이터가 가지는 값들을 구간으로 나누고 각 구간에 데이터가 포함되는지 세는 방법 분할된 구간과 데이터의 개수를 표로 정리한 것 numpy.histogram을 활용하여 쉽게 계산 활용 가능 분포를 쉽게 확인 가능 히스토그램 도수분포표를 막대그래프로 나타낸 것 시각적으로 파악 가능 matplotlib를 활용하여 표현 boxplot 데이터의 산포도를 표현 하는 그림 분포와 이상값을 시각적으로 파악 박스 바깥 가로선들은 이상값을 분리 경계 밖 데이터는 이상값이다.

확률 및 통계 2022.05.16

머신러닝(Machine Learnging)

머신러닝 머신러닝 예시: 학습 feed - foward : 문제를 푼다. (inference) loss update : 오답 정리 (learning) 기계를 조절해서 점점 우리가 원하는 함수로 만들어 나가는 과정 -> 학습 정확도: Accuracy 맞은 개수의 비율 Classification 문제에서 정확도 측정을 통해서 모델의 성능을 확인 머신러닝 테스트 (test, inference) 학습이 완료된 모델 새로운 모델을 넣는다 (Unseen) -> 학습하지 않은 데이터, 처음 본 데이터 머신러닝의 종류 1. 지도 학습 (Supervised Learning) 학습 시 사용하는 데이터가 예측 대상을 포함하고 있고, 예측 대상의 pair를 학습에 사용하는 방법 2. 비지도 학습 (Unsupervised Le..

카테고리 없음 2022.05.16

정규화, 표준화, 편찻값

정규화 평균과 분산이 다른 데이터 분포에서 상대적인 수준을 파악하기 위해서 Normalization 데이터를 통일된 지표로 변환 표준화와 편차값이 활용된다. 표준화 데이터에서 평균을 뺴고 표준편차로 나누는 작업 표준화된 데이터는 표준화 변량 혹은 Z 점수로 불린다. 표준화 변환 이후 평균, 표준편차 측정 평균은 0, 표준편차는 1로 변경 편차값 평균이 50, 표준편차가 10이 되도록 정규화한 값

확률 및 통계 2022.05.16

산포도, 분산, 표준편차, 사분위

산포도 대표값을 중심으로 자료들이 얼마나 흩어져 있는 지 하나의 수치로서 표현 수치가 작을 수록 자료들이 대표값에 밀집 수치가 클 수록 대표값을 중심으로 멀리 흩어져 있다. 분산, 표준편차, 사분위 편차 산포도를 구하는 첫걸음 각 데이터가 평균으로부터 어느정도 떨어져있는지를 나타내는 지표 평균과 한 데이터 값의 차이값 편차 값들의 평균은 0이다. 따라서 편차 평균으로는 산포도를 계산 할 수 없다. -> 분산 사용 분산 편차의 제곱을 합산하여 평균을 계산한 값 편차의 평균은 항상 0이 되는 문제를 고려한 것임 절대값 보다는 제곱값을 더 활용 많이한다. Pandas 분산값과 Numpy 분산값은 다르다. Pandas var()함수로 계산된 분산값은 표본분산이 아닌, 불편분산이다. ddof = 0 이라는 옵션을..

확률 및 통계 2022.05.10

대표값, 평균값, 중앙값, 최빈값

데이터 분석 평균 혹은 분산 등의 수치 지표에 따라 데이터를 요약 그림을 그려 시각화 Pandas->데이터 관리 Numpy->수치 계산 특화 수치 표현 규칙 precision을 활용하여 유효숫자를 설정 대표값 주어진 데이터를 대표 하나의 값으로 요약한 지표 평균값, 중앙값, 최빈값 평균값 (Mean / Average) 가장 잘 얼려진 대표값/ 계산 방식 간단 일상생활에서 가장 많이 쓰임 데이터 값을 모두 더하고, 갯수로 나눈다. 중앙값 (Median) 데이터를 크기 순서대로 나열했을 때, 정확하게 중앙에 위치한 값 데이터의 이상값이 존재할 때 평균값보다 대표값을 더 잘 표현함 이상값에 영향을 덜 받는다. 최빈값 데이터에서 가장 많이 나타나는 값 주로 범주형 변수의 대표값을 구할 때 사용됨

확률 및 통계 2022.05.10

Colab 환경 셋팅, 데이터 종류, 변수 분류

코랩 환경 셋팅 Scikit-learn 무료 데이터 호출 및 DataFrame으로 변환 보스턴 지역 주택 가격 데이터를 사용 원하는 컬럼 뽑아내기 데이터 크기 확인하기 질적 변수 변수의 값이 특정 범주에 포함되도록 표현가능한 변수 (색상, 성별, 종교) 양적 변수 변수의 값을 숫자로 나타낼 수 있는 변수 (키, 몸무게, 소득, 통행량) 이산변수 셀 수 있는 변수 (층 수, 직원 수, 불량품 수) 연속 변수 셀 수 없는 변수 변수의 각 값 사이에 무수히 많으 또 다른 값들이 존재하는 특성 (사람의 키, 몸무게, 나이, 소득) 간격 변수 대소 관계와 함께 그 차이에도 의미를 두는 변수 비율 변수 대소 관계 차이 비 모두에 의미를 두는 변수 명목 변수 단순히 분류하기 위한 변수 순위 변수 순서 관계 및 대소 ..

확률 및 통계 2022.05.10

MySQL기초(7)

JOIN 같은 의미를 가지는 컬럼의 값을 기준으로 테이블을 합칠 때 사용하는 키워드 1. INNER JOIN 기본 조인으로 default임 두 테이블 모두에 있는 값만 합치기 JOIN은 FROM절에 쓴다 SELECT * FROM mypokemon INNER JOIN ability ON mypokemon.number = ability.number; LEFT JOIN 왼쪽 테이블에 있는 값만 합치기 SELECT * FROM mypokemon LEFT JOIN ability ON mypokemon.number = ability.number; OUTER JOIN MySQL에는 OUTER JOIN이 없어서 LEFT JOIN + RIGHT JOIN으로 UNION한다. SELECT * FROM mypokemon LE..

DB 2022.05.04

MySQL기초(6)

IF 주로 SELECT절에 사용, 결과 값을 새로운 컬럼으로 변환 한다. SELECT name, IF(attack >= 60, 'strong','weak')AS attack_class FROM pokemon.mypokemon; IFNULL 데이터가 NULL인지 아닌지를 확인해 NULL이라면 새로운 값을 반환한다. SELECT name, IFNULL(name, 'unknown') AS full_name FROM mypokemon CASE 조건이 여러개일때 사용 SELECT name CASE WHEN attack >= 100 THEN 'very strong' WHEN attack >= 60 THEN 'strong' ELSE 'weak' END AS attack_class FROM my pokemon SELE..

DB 2022.05.04

MySQL 기초(5)

GROUP BY 컬럼에서 동일한 값을 가지는 로우를 그룹화 하는 키워드 SELECT type FROM pokemon.mypokemon GROUP BY type; HAVING 가져올 데이터 그룹에 조건을 지정해주는 키워드 HAVING 조건식 -> 참이 되는 그룹만 선택 HAVING절의 조건식에서는 그룹 함수를 쓴다. COUNT 그룹의 값 수를 세는 함수 COUNT(1)은 하나의 값을 1로 세어주는 표현 SUM 그룹의 합을 계산한다 AVG 그룹의 평균을 계산하는 함수 MIN 그룹의 최솟값 MAX 그룹의 최대값 SELECT type, COUNT(*), COUNT(1), AVG(height), MAX(weight) FROM pokemon.mypokemon GROUP BY type; COUNT(*)은 ROW의 개..

DB 2022.05.04