프로젝트 설명 및 회고프로젝트 소개깃허브 링크 GitHub - lv1turtle/tourist_visitation_patterns_by_weatherContribute to lv1turtle/tourist_visitation_patterns_by_weather development by creating an account on GitHub.github.com진행 기간2024.06.10 ~ 2024.06.14 (5일)주제기상에 따른 관광지 방문 현황 파악프로젝트 인원 구성총 4명Airflow 서버 환경 구축, Github Action 작성한국관광공사 관광지 방문자 수 API 데이터 추출 DAG 작성ERD 작성, dbt를 활용한 ELT 구축기상청 관광지 날씨 정보 API 데이터 추출 DAG 작성나의 역할한국..
Airflow Scheduling과 Execution개요Airflow 관리Airflow를 사용하면서 반드시 알아야 할 것이 "작성한 DAG가 언제, 얼마나 실행되는가?"일 것이다. Airflow에서는 관련 개념을 숙지하지 않으면, 해당 DAG의 실행 유무에 대한 답을 내릴 수 없다. 그래서 Airflow를 활용해 DAG를 제대로 관리하기 위해서는 start_date, execution_date와 더불어 관련 개념을 이해해야 한다.DAG 선언 예시일반적인 DAG를 선언한 예제이다. 해당 Job이 "2024-06-09 04:00:00"에 활성화될 때, 총 몇 번의 DAG가 실행되는지 바로 떠올리기는 쉽지 않다. 그러나 관련 용어의 개념과 타임테이블을 반복적으로 이해하다 보면, 어렵지 않게 떠올릴 수 있을 것..
Airflow 운영과 대안프로덕션 사용을 위한 Airflow 환경 설정airflow.cfg 경로 : /var/lib/airflow/airflow.cfgcore 섹션의 dags_folder가 DAG들이 있는 디렉터리가 되어야 함 (/var/lib/airflow/dags)dag_dir_list_interval : dags_folder를 Airflow가 얼마나 자주 스캔하는지 명시 (초 단위)Airflow Database기본적으로 세팅되는 Sqlite는 테스트로도 사용 불가보통 Postgres or MySQL을 사용DB 변경 시 core 섹션의 sql_alchemy_conn 설정 필요SequentialExecutor 사용 XSqlite일 경우에만 SequentialExecutor가 의미가 있음다른 DB를 사용..
Airflow 기타 기능Airflow의 가장 기본적인 개념인 DAG와 더불어 DAG를 더 효과적으로 관리할 수 있는 Sensor, Trigger Rules, Task Grouping, Dynamic DAG에 대해 알아보자.DAG (Directed Acyclic Graph)DAG 개념Airflow에서 ETL을 부르는 별칭DAG는 하나 이상의 Task로 구성실행 방법Web UI : airflow 웹에 접속해 원하는 DAG를 직접 TriggerScheduler Shelldocker ps로 airflow sheduler의 container ID 혹은 image 이름 확인docker exec -it "container ID 혹은 image 이름" sh로 Scheduler Shell 접속airflow dags te..