확률 및 통계

Colab 환경 셋팅, 데이터 종류, 변수 분류

with_AI 2022. 5. 10. 15:06

코랩 환경 셋팅

 

Scikit-learn 무료 데이터 호출 및 DataFrame으로 변환

보스턴 지역 주택 가격 데이터를 사용

 

원하는 컬럼 뽑아내기

 

데이터 크기 확인하기

 

질적 변수

  • 변수의 값이 특정 범주에 포함되도록 표현가능한 변수
  • (색상, 성별, 종교)

 

양적 변수

  • 변수의 값을 숫자로 나타낼 수 있는 변수
  • (키, 몸무게, 소득, 통행량)

 

이산변수

  • 셀 수 있는 변수
  • (층 수, 직원 수, 불량품 수)

 

연속 변수

  • 셀 수 없는 변수
  • 변수의 각 값 사이에 무수히 많으 또 다른 값들이 존재하는 특성
  • (사람의 키, 몸무게, 나이, 소득)

 

간격 변수

  • 대소 관계와 함께 그 차이에도 의미를 두는 변수

 

비율 변수

  • 대소 관계 차이 비 모두에 의미를 두는 변수

 

명목 변수

  • 단순히 분류하기 위한 변수

 

순위 변수

  • 순서 관계 및 대소 관계에 의미를 둔 변수

 

 

변수 분류 중요성

  • 데이터 크기는 pandas 활용하여 쉽게 측정
  • 변수의 분류는 변수의 성질을 파악하는 분석가로서의 지식이 필요하다.