Airflow 총 정리
Airflow란?
Airflow 개념
- Airflow는 파이썬으로 작성된 데이터 파이프라인(ETL) 프레임워크
- 가장 많이 사용되는 데이터 파이프라인 관리/작성 프레임워크
- Airflow에서 사용되는 데이터 파이프라인을 DAG(Directed Acyclic Graph)라고 부름
Incremental Update 관련 주요 용어
- start_date : 처음 실행할 때 읽어와야 하는 데이터 ex) Daily, start_date = 05-20이면, 첫 실행은 05-21
- execution_date : 실행 시점의 날짜를 Airflow의 시스템 변수로 사용 가능
- catchup : start_date가 과거일 때, 현재까지의 데이터를 수집할지 여부
데이터 파이프라인 작성 시 기억할 점
- 데이터 파이프라인에 관한 정보를 수집하는 것이 중요
- 비즈니스 오너 : 데이터 파이프라인의 데이터를 요청한 사람
- 데이터 리니지 : 데이터가 어디에 쓰이는지 흐름을 파악, 즉 메타 데이터 수집
- 결국 데이터 카탈로그가 필요 -> 데이터 디스커버리 툴
- 데이터 품질 체크 (입력 / 출력 데이터)
- 코드 실패를 어설프게 복구하려는 것보다는 깔끔하게 실패하는 것이 좋음
- 가능하면 Full Refresh, Incremental Update라면 Backfill 방식을 먼저 생각해 둘 것
- 주기적인 데이터, 테이블, DAG 정리
'Data Engineering > Airflow' 카테고리의 다른 글
[Airflow] Executor 실행 준비 과정 (SchedulerJobRunner._execute()) (0) | 2024.10.10 |
---|---|
[Airflow] AWS Ubuntu EC2 Airflow 환경 구축 (feat. Dockerfile) (0) | 2024.08.16 |
[Airflow] DAG Scheduling과 Execution (2) | 2024.06.09 |
[Airflow] Airflow 기타 기능 정리 (0) | 2024.06.05 |
[Airflow] Airflow 기초 지식 (0) | 2024.06.02 |