Data Engineering

Data Engineering/Airflow

[Airflow] Airflow 기타 기능 정리

Airflow 기타 기능Airflow의 가장 기본적인 개념인 DAG와 더불어 DAG를 더 효과적으로 관리할 수 있는 Sensor, Trigger Rules, Task Grouping, Dynamic DAG에 대해 알아보자.DAG (Directed Acyclic Graph)DAG 개념Airflow에서 ETL을 부르는 별칭DAG는 하나 이상의 Task로 구성실행 방법Web UI : airflow 웹에 접속해 원하는 DAG를 직접 TriggerScheduler Shelldocker ps로 airflow sheduler의 container ID 혹은 image 이름 확인docker exec -it "container ID 혹은 image 이름" sh로 Scheduler Shell 접속airflow dags te..

Data Engineering/Airflow

[Airflow] Airflow 기초 지식

Airflow 기초 지식Airflow 소개Airflow 개념파이썬으로 작성된 데이터 파이프라인(ETL) 프레임워크가장 많이 사용되는 데이터 파이프라인 관리 프레임워크Airflow 장단점장점데이터 파이프라인을 세밀하게 제어 가능다양한 데이터 소스와 데이터 웨어하우스를 지원Backfill (여러 이유로 과거의 ETL 실행이 안될 경우 과거의 날짜의 ETL을 실행)이 쉬움단점배우기 쉽지 않음상대적으로 개발 환경을 구성하기 힘듦직접 운영이 쉽지 않으며, 클라우드 버전 사용 선호Airflow 관련 용어DAG(Directed Acyclic Graph)Airflow에서 ETL을 부르는 별칭DAG는 하나 이상의 Task로 구성Task오퍼레이터(Operator)로 만들어짐Airflow 내에서 다양한 종류의 오퍼레이터 제..

Data Engineering/Airflow

[Airflow] Airflow 개념과 ETL 작성시 주의할 점

Airflow 총 정리Airflow란?Airflow 개념Airflow는 파이썬으로 작성된 데이터 파이프라인(ETL) 프레임워크가장 많이 사용되는 데이터 파이프라인 관리/작성 프레임워크Airflow에서 사용되는 데이터 파이프라인을 DAG(Directed Acyclic Graph)라고 부름Incremental Update 관련 주요 용어start_date : 처음 실행할 때 읽어와야 하는 데이터 ex) Daily, start_date = 05-20이면, 첫 실행은 05-21execution_date : 실행 시점의 날짜를 Airflow의 시스템 변수로 사용 가능catchup : start_date가 과거일 때, 현재까지의 데이터를 수집할지 여부데이터 파이프라인 작성 시 기억할 점데이터 파이프라인에 관한 정보..