AWS DB PIPELINE 5

Kafka install in EC2

kafka 메세지 큐 분산환경 특화 분산 메세징 처리 시스템 데이터 영속성 보장 대용량 실시간 로그 처리에 특화 링크드인에서 개발 producer와 Consumer 실습 구성도 EC2 두 개를 띄워서, 실습 AWS 로그인은 2가지 방식 루트사용자, IAM 사용자 2가지 옵션 존재 리전 -> 한국어, 언어 -> 한국어 설정 AWS 는 약 180여가지의 서비스가 존재 스타트업에서는 row 레벨의 코딩을 통한 서비스 배포를 하겠지만 대기업이나 엔터프라이즈에서는 서비스를 구매하여 사용하는 옵션도 존재 스타트업도 규모가 커질수록 서비스를 사용해야 할 수 있음 리전 -> 서울 좌측 언어 -> 한국어 EC2 검색 -> EC2 인스턴스 생성하기 인스턴스 시작 -> AMI 아마존 머신 이미지 선택 -> 유형 선택 -> ..

AWS DB PIPELINE 2022.06.30

EC2, S3, RDS, api-gateway, CloudWatch

데이터 파이프라인을 위한 AWS 서비스 EC2 기본이 되는 클라우드 시스템 가상머신이미지 AMI 키, 쌍을 이용해 로그인 정보 보호 EBS 볼륨 -> 쓰지않을 때 중지 가능 보안 그룹, 특정 포트 IP로 접근 가능하게 정책 설정 태그를 통해서 특정 리소스 분류, COST 확인 S3 버킷 유일해야한다. 그 안에 있는 객체를 찾기 쉬움 버전 관리 가능 주기적으로 백업 가능 RDS 클라우드에서 관계형 DB 특정 이미지로 백업 받을 수 있음 복원 빠르게 가능 API Gateway AWS 안의 서비스와 서비스를 연결해주는 서비스 마이크로 서비스에 필요한 아키텍쳐 CloudWatch 서비스를 모니터링 할 수 있는 서비스 delay 존재 경고, 알림 기능 존재

AWS DB PIPELINE 2022.06.22

데이터 파이프라인의 흐름

데이터 파이프라인 구성방안 1. 회사 내 데이터적 요구사항 빠른 대응 2. 지속적이고 에러가 없어야 한다. 3. 시스템적으로 발생하는 문제에 대해서 유연한 scability 4. 스케일 업, 아웃이 자유로워야 한다. 5. 이벤트성 데이터 부하에도 처리가 가능해야 한다. 6. 데이터가 쌓이는 공간에 문제가 없어야 한다. 7. 수집 데이터의 유연성 8. 쉬운 분석 데이터 포멧 - json으로 저장하는 것이 좋음 데이터 기반 오픈소스, 클라우드 서비스가 정말 많이 나왔음 Data Lambda 아키텍쳐 먼저 Raw data store에 저장한다. batch 나 real-time 프로세스로 servig data store에 저장한다. Data Warehouse에 저장할 수 있음 -> 마트를 구성할 수 있음, Fe..

AWS DB PIPELINE 2022.06.20

데이터 파이프라인 아키텍쳐 기본 설명

공부 목표 데이터 수집 분석/시각화에 이르는 분석의 기반이 되는 데이터 파이프라인의 흐름에 대해서 이해한다. 이를 구성하는데 필요한 서비스 각각 용어와 의미를 알아본다. Kafka 실습을 통해 온프레미스와 클라우드 환경에서 데이터 수집 차이를 본다. 1. 데이터 파이프 라인의 흐름 이해 2. AWS 서비스 이해 3. 데이터 수집을 위한 Logstash와 Kafka를 이용해 ec2에서 로그 수집하기 파이프 라인 한 데이터 처리 단계의 출력이 다음 단계의 입력으로 이어지는 형태로 연결된 구조 데이터 파이프라인 아키텍쳐 데이터 생성은 다양하다. - 고객 - 앱서비스, 웹서비스 - SNS 데이터 - IOT 데이터 클라우드가 활성화 되면서 PaSS 서비스가 많아졌다. 수집에 관련된 tool 아마존 키네시스 스트림..

AWS DB PIPELINE 2022.06.20