@task 개념과 사용 예시, 주의할 점Airflow는 워크플로우의 각 단계를 Task로 정의하며, Task를 추가하기 위해 Operator를 사용한다. Airflow 2.0부터 TaskFlow API가 도입되어 Task Decorator인 @task를 활용해 Task를 정의할 수 있게 되었다. 이번 글에서는 @task의 개념과 사용 방법, 예시, 유스케이스를 소개하려고 한다.Airflow Taskflow 공식 문서Python Decorator와 @task의 개념Python Decorator 개념Python의 Dacorator는 함수의 기능을 확장하거나 수정하기 위해 사용하는 디자인 패턴이다. 보통 함수 위에 "@이름" 형태로 선언되며, 함수 호출 전후에 특정 작업을 수행하거나 함수의 동작을 변경할 수 ..
Airflow의 기타 기능Dag Dependencies (1)DAG를 실행하는 방법주기적 실행 : Schedule로 지정DAG Dependencies : 다른 DAG에 의해 TriggerExplicit Trigger (TriggerDagOperator) : DAG A가 DAG B를 Trigger, A가 끝나면 B를 Trigger Reactive Trigger (ExternalTaskSensor) : DAG B가 DAG A의 Task 종료를 기다림, A는 이 사실을 모름ExternalTaskSensor는 사용 조건이 까다로워 실수하기 쉽기 때문에 안 쓰는 방향으로 가는 게 좋음알아두면 좋은 상황에 따라 다른 Task 실행 방식BranchPythonOperater : 조건에 따라 다른 Task로 분기La..
Airflow 기초 지식Airflow 소개Airflow 개념파이썬으로 작성된 데이터 파이프라인(ETL) 프레임워크가장 많이 사용되는 데이터 파이프라인 관리 프레임워크Airflow 장단점장점데이터 파이프라인을 세밀하게 제어 가능다양한 데이터 소스와 데이터 웨어하우스를 지원Backfill (여러 이유로 과거의 ETL 실행이 안될 경우 과거의 날짜의 ETL을 실행)이 쉬움단점배우기 쉽지 않음상대적으로 개발 환경을 구성하기 힘듦직접 운영이 쉽지 않으며, 클라우드 버전 사용 선호Airflow 관련 용어DAG(Directed Acyclic Graph)Airflow에서 ETL을 부르는 별칭DAG는 하나 이상의 Task로 구성Task오퍼레이터(Operator)로 만들어짐Airflow 내에서 다양한 종류의 오퍼레이터 제..