copy

[프로그래머스] 데이터 엔지니어링 데브코스 3기/TIL(Today I Learn)

[TIL - 45일 차] 데이터 파이프라인과 Airflow (5)

Airflow DAG 개발 - OLTP 복사와 ELTOLTP(MySQL) 테이블 복사 방법프로덕션 MySQL 테이블 (OLTP)의 prod.nps 테이블을 AWS Redshift (OLAP)의 raw_data.nps로 복사하는 실습을 진행한다.복사 방법둘 중 어느 방법을 사용하더라도 Airflow는 MySQL과의 연결이 필요하며, COPY를 사용할 경우 S3와도 연결돼야 한다.INSERT INTOMySQL의 소스 데이터를 읽어 하나씩 AWS Redshift로 "INSERT INTO"를 사용해 복사소스 데이터의 레코드 수가 많다면 시간이 오래 걸림MySQL -> Airflow Server -> AWS RedshiftRedshift COPYMySQL의 소스 데이터를 읽어 파일로 클라우드 스토리지 S3에 저장..

Infra/AWS

[AWS] Amazon Redshift 개념과 구조, 특징

Amazon RedshiftAmazon Reshift란?Redshift는 AWS에서 지원하는 완전 관리형 데이터 웨어하우스 서비스이다. PostgreSQL 기반으로 대규모 병렬 처리, 데이터 압축을 통해 효율적인 데이터 저장 및 최적의 쿼리 성능을 가져올 수 있다. 응답 속도보다 처리 용량에 최적화(OLAP)되어 있어 빠른 시간에 응답해야 한다면 사용하기 힘들다. 최근에는 Serverless로 가변 비용 서비스가 만들어졌다.OLAP(데이터 웨어하우스, ex - Redshift) vs OLTP(프로덕션 데이터베이스, ex - RDS)고정 비용(ex - Redshift) vs 가변 비용(ex - Snowflake, BigQuery)클러스터클러스터는 리더 노드와 하나 이상의 컴퓨팅 노드로 구성되어 있다.리더 ..

[프로그래머스] 데이터 엔지니어링 데브코스 3기/숙제

[숙제 - 33일 차] S3 -> Redshift, COPY 명령어로 데이터 적재하기 (2)

raw_data.nps 테이블을 바탕으로 월별 NPS 계산Redshift COPY 명령으로 테이블에 적재raw_data 스키마 내부에 nps 테이블 생성%%sqlCREATE TABLE raw_data.nps ( created_at timestamp, score smallint);파일 업로드 및 COPY 명령어 실행주어진 nps 파일을 S3에 업로드 후 COPY 명령어를 통해 Redshift에 벌크 업데이트를 진행한다.%%sqlCOPY raw_data.npsFROM 's3-file-path'credentials 'aws_iam_role=arn:aws:iam::~'delimiter ',' dateformat 'auto' timeformat 'auto' ignoreheader 1COPY 확인%%sq..

[프로그래머스] 데이터 엔지니어링 데브코스 3기/숙제

[숙제 - 32일 차] S3 -> Redshift, COPY 명령어로 데이터 적재하기

Redshift COPY 명령으로 테이블에 적재Redshift Serverless 생성 및 접속Default VPC 생성이전에 모든 VPC를 삭제해서 Redshift를 생성할 때 선택할 VPC가 존재하지 않았다. 그래서 임의로 만들어서 하려고 했다가 오류가 발생해서 계속 검색하던 중 아래의 명령어로 default vpc를 만들 수 있다는 것을 알게 되었다.aws ec2 create-default-vpc 기본 VPC - Amazon Virtual Private Cloud기본 VPC Amazon VPC를 사용하기 시작하는 경우 각 AWS 리전에 기본 VPC가 있습니다. 기본 VPC는 각 가용 영역의 퍼블릭 서브넷, 인터넷 게이트웨이 및 DNS 확인 활성화 설정과 함께 제공됩니다. 따라서docs.aws.ama..

기억에 남는 블로그 닉네임
'copy' 태그의 글 목록 (2 Page)