전체 글 122

Troubleshooting and Solving Data Join Pitfalls

벌써 4번째 퀘스트이다. 이 벳지를 따기 위해서 계속 퀘스트를 깨고 있고, 이번 과제의 목표는 트러블 슈팅과 데이터 조인 함정 문제 해결이다. Pin the lab project in BigQuery Scenario: Your team provides you with a new dataset on the inventory stock levels for each of your products for sale on your ecommerce website. You want to become familiar with the products on the website and the fields you could use to potentially join on to other datasets. The projec..

Creating Date-Partitioned Tables in BigQuery

3번째 퀘스트를 진행 해보았다. 이번 부터는 시나리오 하나하나 다 해석을 해보려고 한다. Create a new dataset First, you will create a dataset to store your tables. Click the three dots next to your Qwiklabs project ID and select Create dataset: Name your dataset ecommerce. Leave the other options at their default values (Data Location, Default table Expiration). Click Create dataset. Click Check my progress to verify the objective. ..

Creating a Data Warehouse Through Joins and Unions

아직은 GCP 뱃지가 없지만, 이번 챌린지를 계속 진행하려면 Pre-requisite: Earn the Build and Optimize Data Warehouses with BigQuery skill badge. Already earned it? Great! Don't have it yet? Be sure to earn it by July 19, 2022. 7월19 일까지 Earn the Build and Optimize Data Warehouses with BigQuery skill badge 를 얻어야 한다. 첫번째 과제를 끝내면 이런식으로 진행중인 퀘스트를 볼 수 있게 된다. 이렇게 많은 LAB을 도전해서 통과해야 뱃지를 받을 수 있다. 오늘 7/3일 일요일 안으로 이 퀘스트를 모두 완료해 보려고..

Kafka install in EC2

kafka 메세지 큐 분산환경 특화 분산 메세징 처리 시스템 데이터 영속성 보장 대용량 실시간 로그 처리에 특화 링크드인에서 개발 producer와 Consumer 실습 구성도 EC2 두 개를 띄워서, 실습 AWS 로그인은 2가지 방식 루트사용자, IAM 사용자 2가지 옵션 존재 리전 -> 한국어, 언어 -> 한국어 설정 AWS 는 약 180여가지의 서비스가 존재 스타트업에서는 row 레벨의 코딩을 통한 서비스 배포를 하겠지만 대기업이나 엔터프라이즈에서는 서비스를 구매하여 사용하는 옵션도 존재 스타트업도 규모가 커질수록 서비스를 사용해야 할 수 있음 리전 -> 서울 좌측 언어 -> 한국어 EC2 검색 -> EC2 인스턴스 생성하기 인스턴스 시작 -> AMI 아마존 머신 이미지 선택 -> 유형 선택 -> ..

AWS DB PIPELINE 2022.06.30

EC2, S3, RDS, api-gateway, CloudWatch

데이터 파이프라인을 위한 AWS 서비스 EC2 기본이 되는 클라우드 시스템 가상머신이미지 AMI 키, 쌍을 이용해 로그인 정보 보호 EBS 볼륨 -> 쓰지않을 때 중지 가능 보안 그룹, 특정 포트 IP로 접근 가능하게 정책 설정 태그를 통해서 특정 리소스 분류, COST 확인 S3 버킷 유일해야한다. 그 안에 있는 객체를 찾기 쉬움 버전 관리 가능 주기적으로 백업 가능 RDS 클라우드에서 관계형 DB 특정 이미지로 백업 받을 수 있음 복원 빠르게 가능 API Gateway AWS 안의 서비스와 서비스를 연결해주는 서비스 마이크로 서비스에 필요한 아키텍쳐 CloudWatch 서비스를 모니터링 할 수 있는 서비스 delay 존재 경고, 알림 기능 존재

AWS DB PIPELINE 2022.06.22

데이터 파이프라인의 흐름

데이터 파이프라인 구성방안 1. 회사 내 데이터적 요구사항 빠른 대응 2. 지속적이고 에러가 없어야 한다. 3. 시스템적으로 발생하는 문제에 대해서 유연한 scability 4. 스케일 업, 아웃이 자유로워야 한다. 5. 이벤트성 데이터 부하에도 처리가 가능해야 한다. 6. 데이터가 쌓이는 공간에 문제가 없어야 한다. 7. 수집 데이터의 유연성 8. 쉬운 분석 데이터 포멧 - json으로 저장하는 것이 좋음 데이터 기반 오픈소스, 클라우드 서비스가 정말 많이 나왔음 Data Lambda 아키텍쳐 먼저 Raw data store에 저장한다. batch 나 real-time 프로세스로 servig data store에 저장한다. Data Warehouse에 저장할 수 있음 -> 마트를 구성할 수 있음, Fe..

AWS DB PIPELINE 2022.06.20

데이터 파이프라인 아키텍쳐 기본 설명

공부 목표 데이터 수집 분석/시각화에 이르는 분석의 기반이 되는 데이터 파이프라인의 흐름에 대해서 이해한다. 이를 구성하는데 필요한 서비스 각각 용어와 의미를 알아본다. Kafka 실습을 통해 온프레미스와 클라우드 환경에서 데이터 수집 차이를 본다. 1. 데이터 파이프 라인의 흐름 이해 2. AWS 서비스 이해 3. 데이터 수집을 위한 Logstash와 Kafka를 이용해 ec2에서 로그 수집하기 파이프 라인 한 데이터 처리 단계의 출력이 다음 단계의 입력으로 이어지는 형태로 연결된 구조 데이터 파이프라인 아키텍쳐 데이터 생성은 다양하다. - 고객 - 앱서비스, 웹서비스 - SNS 데이터 - IOT 데이터 클라우드가 활성화 되면서 PaSS 서비스가 많아졌다. 수집에 관련된 tool 아마존 키네시스 스트림..

AWS DB PIPELINE 2022.06.20

머신러닝 프로젝트 전처리 예시 1

Can you cut the time a Mercedes-Benz spends on the test bench? https://www.kaggle.com/c/mercedes-benz-greener-manufacturing Mercedes-Benz Greener Manufacturing | Kaggle www.kaggle.com 이 프로젝트에서는... feature 엔지니어링을 잘해야한다. 적절한 feature들로만 성능이 높게 나올 수 있다. 주어진 공정들의 시간을 더해서 테스트 시간을 예측한다. 보안상 때문에 x1, x2, 등으로 이름이 붙여있음 카테고리, 0과1 등 label을 추정을 해야만 하는 한계도 있음 프로젝트 목적 test_bench time predict ML 프로젝트 수행 순서 - 라이브..

Machine Learning 2022.05.30