Airflow DAG 개발 - OLTP 복사와 ELTOLTP(MySQL) 테이블 복사 방법프로덕션 MySQL 테이블 (OLTP)의 prod.nps 테이블을 AWS Redshift (OLAP)의 raw_data.nps로 복사하는 실습을 진행한다.복사 방법둘 중 어느 방법을 사용하더라도 Airflow는 MySQL과의 연결이 필요하며, COPY를 사용할 경우 S3와도 연결돼야 한다.INSERT INTOMySQL의 소스 데이터를 읽어 하나씩 AWS Redshift로 "INSERT INTO"를 사용해 복사소스 데이터의 레코드 수가 많다면 시간이 오래 걸림MySQL -> Airflow Server -> AWS RedshiftRedshift COPYMySQL의 소스 데이터를 읽어 파일로 클라우드 스토리지 S3에 저장..
Amazon RedshiftAmazon Reshift란?Redshift는 AWS에서 지원하는 완전 관리형 데이터 웨어하우스 서비스이다. PostgreSQL 기반으로 대규모 병렬 처리, 데이터 압축을 통해 효율적인 데이터 저장 및 최적의 쿼리 성능을 가져올 수 있다. 응답 속도보다 처리 용량에 최적화(OLAP)되어 있어 빠른 시간에 응답해야 한다면 사용하기 힘들다. 최근에는 Serverless로 가변 비용 서비스가 만들어졌다.OLAP(데이터 웨어하우스, ex - Redshift) vs OLTP(프로덕션 데이터베이스, ex - RDS)고정 비용(ex - Redshift) vs 가변 비용(ex - Snowflake, BigQuery)클러스터클러스터는 리더 노드와 하나 이상의 컴퓨팅 노드로 구성되어 있다.리더 ..
Redshift COPY 명령으로 테이블에 적재Redshift Serverless 생성 및 접속Default VPC 생성이전에 모든 VPC를 삭제해서 Redshift를 생성할 때 선택할 VPC가 존재하지 않았다. 그래서 임의로 만들어서 하려고 했다가 오류가 발생해서 계속 검색하던 중 아래의 명령어로 default vpc를 만들 수 있다는 것을 알게 되었다.aws ec2 create-default-vpc 기본 VPC - Amazon Virtual Private Cloud기본 VPC Amazon VPC를 사용하기 시작하는 경우 각 AWS 리전에 기본 VPC가 있습니다. 기본 VPC는 각 가용 영역의 퍼블릭 서브넷, 인터넷 게이트웨이 및 DNS 확인 활성화 설정과 함께 제공됩니다. 따라서docs.aws.ama..