Python

Pandas를 사용해야 하는 이유

with_AI 2022. 4. 15. 11:31

Pandas

  • Python data analysis Library
  • 정형 데이터 분석
  • 테이블 형태
  • 오픈소스
  • DataFrame 형태로 모든 데이터를 표현
  • indexing
  • search
  • filtering
  • reshaping
  • concat
  • reading
  • writing
  • 벡터 연산에 최적화 돼있음 -> Numpy와 연관성 있음

판다스를 사용해야 하는 이유

  • 대부분의 정제된 데이터들은 테이블 형태로 표현된다.
  • 테이블 데이터 분석하기에 최적임
  • numpy처럼 정형화된 데이터 연산에 최적화, 성능이 매우 뛰어남 (엑셀보다)
  • 판다스는 엑셀보다 대용량 데이터 관리 가능
  • 다양한 정형 데이터를 통합 관리할 수 있다. (json, html, csv, hdf5, sql) 모두 DataFrame으로 통일해서 표현 가능
  • 엑셀에서 제공하는 연산 기능을 거의 다 제공한다.

DataFrame

 

판다스 라이브러리가 사용하는 기본 자료구조

2차원 테이블 구조

1차원 구조인 Series도 있다. (1x1)

row, column으로 모든 원소를 구분 (indexing)

index, columns, values라는 객체 변수를 가지고 있다.

RDB와 완전히 호환된다

하나의 column 기준으로 모든 원소의 data type이 동일 (Numpy array가 가지는 data type과 동일)

DataFrame은 numpy array를 상위호환하는 개념으로 universal function이 사용 가능

-> 내부 구현체로 numpy array를 사용하기 때문에

 

 

 

'Python' 카테고리의 다른 글

데이터 시각화 라이브러리 Seaborn  (0) 2022.04.19
Numpy array  (0) 2022.04.14
Python Class 메소드 오버라이딩(Method override) 예제  (0) 2022.04.14
Python Class 기초  (0) 2022.04.14
OOP 기초  (0) 2022.04.14