데이터 파이프라인 문제점 해결하기41일 차 강의를 들으면서 간단한 파이썬 데이터 파이프라인 실습을 진행하였다. 그런데 몇 가지 문제점이 존재하는데, Extract / Transform / Load 함수 중에 Load 함수를 수정하면 해결된다. [TIL - 41일 차] 데이터 파이프라인과 Airflow (1)데이터 파이프라인(ETL) 소개데이터 파이프라인(ETL) 이란?Data Pipeline = ETL = Data Workflow = DAG(Directed Acyclic Graph)ELT : Extract(데이터 다운로드), Transform(데이터 포맷 변경), Load(데이터 적재)DAG : Airflow에서sanseo.tistory.com문제점불필요한 헤더 : ['name', 'gender']까지 ..
Redshift COPY 명령으로 테이블에 적재Redshift Serverless 생성 및 접속Default VPC 생성이전에 모든 VPC를 삭제해서 Redshift를 생성할 때 선택할 VPC가 존재하지 않았다. 그래서 임의로 만들어서 하려고 했다가 오류가 발생해서 계속 검색하던 중 아래의 명령어로 default vpc를 만들 수 있다는 것을 알게 되었다.aws ec2 create-default-vpc 기본 VPC - Amazon Virtual Private Cloud기본 VPC Amazon VPC를 사용하기 시작하는 경우 각 AWS 리전에 기본 VPC가 있습니다. 기본 VPC는 각 가용 영역의 퍼블릭 서브넷, 인터넷 게이트웨이 및 DNS 확인 활성화 설정과 함께 제공됩니다. 따라서docs.aws.ama..
ETL / ELT어떤 데이터 소스들을 ETL로 읽어올 것인가?ETL로 수집한 데이터를 어떻게 ELT로 요약하면 좋을까?주제내가 선정한 주제는 "실내 클라이밍 암장"이다. 최근 관심이 생긴 클라이밍 암장에 대한 데이터에 대한 ETL/TLT를 작성해보려고 한다.ETL / ELT실제로 클라이밍을 하면서 어느 시간 대에는 사람이 없고, 어느 시간대에는 사람이 많은 것을 경험하였고 이를 데이터로 표현하면 “사람이 없는 시간대에 피해서 갈 수 있지 않을까..?” 하는 바람을 담아 작성하였다. 또한 “요일 별 일일권/기간권 입장 수”를 통해서 일시적으로 사람이 많은 것인지를 확인해볼 수 있을 것이다.