숙제

[프로그래머스] 데이터 엔지니어링 데브코스 3기/숙제

[숙제 - 41일 차] 데이터 파이프라인 실습 코드 문제점 해결하기

데이터 파이프라인 문제점 해결하기41일 차 강의를 들으면서 간단한 파이썬 데이터 파이프라인 실습을 진행하였다. 그런데 몇 가지 문제점이 존재하는데, Extract / Transform / Load 함수 중에 Load 함수를 수정하면 해결된다. [TIL - 41일 차] 데이터 파이프라인과 Airflow (1)데이터 파이프라인(ETL) 소개데이터 파이프라인(ETL) 이란?Data Pipeline = ETL = Data Workflow = DAG(Directed Acyclic Graph)ELT : Extract(데이터 다운로드), Transform(데이터 포맷 변경), Load(데이터 적재)DAG : Airflow에서sanseo.tistory.com문제점불필요한 헤더 : ['name', 'gender']까지 ..

[프로그래머스] 데이터 엔지니어링 데브코스 3기/숙제

[숙제 - 33일 차] S3 -> Redshift, COPY 명령어로 데이터 적재하기 (2)

raw_data.nps 테이블을 바탕으로 월별 NPS 계산Redshift COPY 명령으로 테이블에 적재raw_data 스키마 내부에 nps 테이블 생성%%sqlCREATE TABLE raw_data.nps ( created_at timestamp, score smallint);파일 업로드 및 COPY 명령어 실행주어진 nps 파일을 S3에 업로드 후 COPY 명령어를 통해 Redshift에 벌크 업데이트를 진행한다.%%sqlCOPY raw_data.npsFROM 's3-file-path'credentials 'aws_iam_role=arn:aws:iam::~'delimiter ',' dateformat 'auto' timeformat 'auto' ignoreheader 1COPY 확인%%sq..

[프로그래머스] 데이터 엔지니어링 데브코스 3기/숙제

[숙제 - 32일 차] S3 -> Redshift, COPY 명령어로 데이터 적재하기

Redshift COPY 명령으로 테이블에 적재Redshift Serverless 생성 및 접속Default VPC 생성이전에 모든 VPC를 삭제해서 Redshift를 생성할 때 선택할 VPC가 존재하지 않았다. 그래서 임의로 만들어서 하려고 했다가 오류가 발생해서 계속 검색하던 중 아래의 명령어로 default vpc를 만들 수 있다는 것을 알게 되었다.aws ec2 create-default-vpc 기본 VPC - Amazon Virtual Private Cloud기본 VPC Amazon VPC를 사용하기 시작하는 경우 각 AWS 리전에 기본 VPC가 있습니다. 기본 VPC는 각 가용 영역의 퍼블릭 서브넷, 인터넷 게이트웨이 및 DNS 확인 활성화 설정과 함께 제공됩니다. 따라서docs.aws.ama..

[프로그래머스] 데이터 엔지니어링 데브코스 3기/숙제

[숙제 - 31일 차] 데브코스 ETL/ELT

ETL / ELT어떤 데이터 소스들을 ETL로 읽어올 것인가?ETL로 수집한 데이터를 어떻게 ELT로 요약하면 좋을까?주제내가 선정한 주제는 "실내 클라이밍 암장"이다. 최근 관심이 생긴 클라이밍 암장에 대한 데이터에 대한 ETL/TLT를 작성해보려고 한다.ETL / ELT실제로 클라이밍을 하면서 어느 시간 대에는 사람이 없고, 어느 시간대에는 사람이 많은 것을 경험하였고 이를 데이터로 표현하면 “사람이 없는 시간대에 피해서 갈 수 있지 않을까..?” 하는 바람을 담아 작성하였다. 또한 “요일 별 일일권/기간권 입장 수”를 통해서 일시적으로 사람이 많은 것인지를 확인해볼 수 있을 것이다.

기억에 남는 블로그 닉네임
'숙제' 태그의 글 목록 (2 Page)