Redshift

[프로그래머스] 데이터 엔지니어링 데브코스 3기/숙제

[숙제 - 41일 차] 데이터 파이프라인 실습 코드 문제점 해결하기

데이터 파이프라인 문제점 해결하기41일 차 강의를 들으면서 간단한 파이썬 데이터 파이프라인 실습을 진행하였다. 그런데 몇 가지 문제점이 존재하는데, Extract / Transform / Load 함수 중에 Load 함수를 수정하면 해결된다. [TIL - 41일 차] 데이터 파이프라인과 Airflow (1)데이터 파이프라인(ETL) 소개데이터 파이프라인(ETL) 이란?Data Pipeline = ETL = Data Workflow = DAG(Directed Acyclic Graph)ELT : Extract(데이터 다운로드), Transform(데이터 포맷 변경), Load(데이터 적재)DAG : Airflow에서sanseo.tistory.com문제점불필요한 헤더 : ['name', 'gender']까지 ..

Infra/AWS

[AWS] Amazon Redshift 개념과 구조, 특징

Amazon RedshiftAmazon Reshift란?Redshift는 AWS에서 지원하는 완전 관리형 데이터 웨어하우스 서비스이다. PostgreSQL 기반으로 대규모 병렬 처리, 데이터 압축을 통해 효율적인 데이터 저장 및 최적의 쿼리 성능을 가져올 수 있다. 응답 속도보다 처리 용량에 최적화(OLAP)되어 있어 빠른 시간에 응답해야 한다면 사용하기 힘들다. 최근에는 Serverless로 가변 비용 서비스가 만들어졌다.OLAP(데이터 웨어하우스, ex - Redshift) vs OLTP(프로덕션 데이터베이스, ex - RDS)고정 비용(ex - Redshift) vs 가변 비용(ex - Snowflake, BigQuery)클러스터클러스터는 리더 노드와 하나 이상의 컴퓨팅 노드로 구성되어 있다.리더 ..

[프로그래머스] 데이터 엔지니어링 데브코스 3기/숙제

[숙제 - 33일 차] S3 -> Redshift, COPY 명령어로 데이터 적재하기 (2)

raw_data.nps 테이블을 바탕으로 월별 NPS 계산Redshift COPY 명령으로 테이블에 적재raw_data 스키마 내부에 nps 테이블 생성%%sqlCREATE TABLE raw_data.nps ( created_at timestamp, score smallint);파일 업로드 및 COPY 명령어 실행주어진 nps 파일을 S3에 업로드 후 COPY 명령어를 통해 Redshift에 벌크 업데이트를 진행한다.%%sqlCOPY raw_data.npsFROM 's3-file-path'credentials 'aws_iam_role=arn:aws:iam::~'delimiter ',' dateformat 'auto' timeformat 'auto' ignoreheader 1COPY 확인%%sq..

[프로그래머스] 데이터 엔지니어링 데브코스 3기/숙제

[숙제 - 32일 차] S3 -> Redshift, COPY 명령어로 데이터 적재하기

Redshift COPY 명령으로 테이블에 적재Redshift Serverless 생성 및 접속Default VPC 생성이전에 모든 VPC를 삭제해서 Redshift를 생성할 때 선택할 VPC가 존재하지 않았다. 그래서 임의로 만들어서 하려고 했다가 오류가 발생해서 계속 검색하던 중 아래의 명령어로 default vpc를 만들 수 있다는 것을 알게 되었다.aws ec2 create-default-vpc 기본 VPC - Amazon Virtual Private Cloud기본 VPC Amazon VPC를 사용하기 시작하는 경우 각 AWS 리전에 기본 VPC가 있습니다. 기본 VPC는 각 가용 영역의 퍼블릭 서브넷, 인터넷 게이트웨이 및 DNS 확인 활성화 설정과 함께 제공됩니다. 따라서docs.aws.ama..

기억에 남는 블로그 닉네임
'Redshift' 태그의 글 목록 (4 Page)