공부 목표
데이터 수집 분석/시각화에 이르는 분석의 기반이 되는 데이터 파이프라인의 흐름에 대해서 이해한다.
이를 구성하는데 필요한 서비스 각각 용어와 의미를 알아본다.
Kafka 실습을 통해 온프레미스와 클라우드 환경에서 데이터 수집 차이를 본다.
1. 데이터 파이프 라인의 흐름 이해
2. AWS 서비스 이해
3. 데이터 수집을 위한 Logstash와 Kafka를 이용해 ec2에서 로그 수집하기
파이프 라인
한 데이터 처리 단계의 출력이 다음 단계의 입력으로 이어지는 형태로 연결된 구조
데이터 파이프라인 아키텍쳐
데이터 생성은 다양하다.
- 고객
- 앱서비스, 웹서비스
- SNS 데이터
- IOT 데이터
클라우드가 활성화 되면서 PaSS 서비스가 많아졌다.
수집에 관련된 tool
- 아마존 키네시스 스트림즈
- 아마존 키네시스 파이어호스
- 아마존 API 게이트 웨이
- 람다 함수
- 이벤트 드리븐, 핸들링
전처리 및 저장
- AWS Glue
- ETL 기본 서비스
- 데이터 메타정보 가지고 있음
- Amazon S3
- Amazon EMR
- 하둡과 관련된 관리형 서비스
- 데이터 전처리, 저장 가능
- Amazon Athena
분석 및 시각화
- 아파치 제플린
- tableau
- periscope data
- superset
'AWS DB PIPELINE' 카테고리의 다른 글
Data PIPELINE 용어 정리 (0) | 2022.07.02 |
---|---|
Kafka install in EC2 (0) | 2022.06.30 |
EC2, S3, RDS, api-gateway, CloudWatch (0) | 2022.06.22 |
데이터 파이프라인의 흐름 (0) | 2022.06.20 |