데이터 파이프라인(ETL) 소개데이터 파이프라인(ETL) 이란?Data Pipeline = ETL = Data Workflow = DAG(Directed Acyclic Graph)ELT : Extract(데이터 다운로드), Transform(데이터 포맷 변경), Load(데이터 적재)DAG : Airflow에서 사용되는 용어 / 다수의 tack로 구성이 되고, 루프가 존재하지 않음ETL vs ELTETL 데이터를 데이터 웨어하우스 외부에서 내부로 가져오는 프로세스로 보통 데이터 엔지니어가 수행ELT데이터 웨어하우스 내부 데이터로 새로운 데이터를 만드는 프로세스로 보통 데이터 분석가가 수행데이터 레이크 위에서 작업을 수행하기도 함ELT 프로세스 전용 기술이 있으며 dbt(Data Build Tool)가 가..
대시보드 소개와 구현다양한 시각화 툴 소개시각화 툴이란?대시보드 또는 BI(Business Intelligence) 툴이라고 부른다. KPI(Key Performance Indicator), 지표, 중요한 데이터 포인트를 데이터 기반으로 계산/분석/표시해 주는 툴이다. 현업 종사자들이 데이터 분석을 쉽게 할 수 있도록 해주며, 결정권자들이 데이터 기반 의사결정을 가능하게 한다.데이터 기반 결정 (Data-Driven Decision) vs 데이터 참고 결정 (Data-Informed Decision)시각화 툴Excel, Google SpreadsheetPythonLooker (구글)2012년 미국 캘리포니아 산타크루즈에서 시작하였고 구글이 2019년 6월에 $2.6B에 인수LookML이 자체 언어로 데이..
Redshift COPY 명령으로 테이블에 적재Redshift Serverless 생성 및 접속Default VPC 생성이전에 모든 VPC를 삭제해서 Redshift를 생성할 때 선택할 VPC가 존재하지 않았다. 그래서 임의로 만들어서 하려고 했다가 오류가 발생해서 계속 검색하던 중 아래의 명령어로 default vpc를 만들 수 있다는 것을 알게 되었다.aws ec2 create-default-vpc 기본 VPC - Amazon Virtual Private Cloud기본 VPC Amazon VPC를 사용하기 시작하는 경우 각 AWS 리전에 기본 VPC가 있습니다. 기본 VPC는 각 가용 영역의 퍼블릭 서브넷, 인터넷 게이트웨이 및 DNS 확인 활성화 설정과 함께 제공됩니다. 따라서docs.aws.ama..