Airflow 총 정리Airflow란?Airflow 개념Airflow는 파이썬으로 작성된 데이터 파이프라인(ETL) 프레임워크가장 많이 사용되는 데이터 파이프라인 관리/작성 프레임워크Airflow에서 사용되는 데이터 파이프라인을 DAG(Directed Acyclic Graph)라고 부름Incremental Update 관련 주요 용어start_date : 처음 실행할 때 읽어와야 하는 데이터 ex) Daily, start_date = 05-20이면, 첫 실행은 05-21execution_date : 실행 시점의 날짜를 Airflow의 시스템 변수로 사용 가능catchup : start_date가 과거일 때, 현재까지의 데이터를 수집할지 여부데이터 파이프라인 작성 시 기억할 점데이터 파이프라인에 관한 정보..
프로젝트 설명 및 회고프로젝트 소개깃허브 링크이번 프로젝트에서는 개발 부분이 없었기 때문에 깃허브를 활용하지는 않았다. 대신에 Readme.md에 프로젝트 내용을 정리하였고, preset의 chart / dashboards / databases / datasets를 .yaml로 export 하여 업로드하였다. GitHub - ss721229/dev-2-2Contribute to ss721229/dev-2-2 development by creating an account on GitHub.github.com진행 기간2024.05.13 ~ 2024.05.17 (5일)주제서울시 상권 분석 대시보드프로젝트 인원 구성총 4명서울시 소득/소비 데이터 가공 및 시각화, 인프라 구성서울시 점포 관련 데이터 가공 및 시..
데이터 파이프라인 문제점 해결하기41일 차 강의를 들으면서 간단한 파이썬 데이터 파이프라인 실습을 진행하였다. 그런데 몇 가지 문제점이 존재하는데, Extract / Transform / Load 함수 중에 Load 함수를 수정하면 해결된다. [TIL - 41일 차] 데이터 파이프라인과 Airflow (1)데이터 파이프라인(ETL) 소개데이터 파이프라인(ETL) 이란?Data Pipeline = ETL = Data Workflow = DAG(Directed Acyclic Graph)ELT : Extract(데이터 다운로드), Transform(데이터 포맷 변경), Load(데이터 적재)DAG : Airflow에서sanseo.tistory.com문제점불필요한 헤더 : ['name', 'gender']까지 ..
데이터 파이프라인(ETL) 소개데이터 파이프라인(ETL) 이란?Data Pipeline = ETL = Data Workflow = DAG(Directed Acyclic Graph)ELT : Extract(데이터 다운로드), Transform(데이터 포맷 변경), Load(데이터 적재)DAG : Airflow에서 사용되는 용어 / 다수의 tack로 구성이 되고, 루프가 존재하지 않음ETL vs ELTETL 데이터를 데이터 웨어하우스 외부에서 내부로 가져오는 프로세스로 보통 데이터 엔지니어가 수행ELT데이터 웨어하우스 내부 데이터로 새로운 데이터를 만드는 프로세스로 보통 데이터 분석가가 수행데이터 레이크 위에서 작업을 수행하기도 함ELT 프로세스 전용 기술이 있으며 dbt(Data Build Tool)가 가..