mau_summary, channel_summery를 config로 옮기기 아래 링크의 'ELT 구현'을 확인해 보면 nps_summary.py를 예시로 config에 대한 이해를 할 수 있다. nps_summary의 형태를 참고하여 mau_summary, channel_summary를 작성해 보자. nps_summary에서는 input_check, output_check를 통해 테스트가 추가되어 있는데, 해당 부분은 제외하고 필요한 부분만 작성할 것이다. [TIL - 51일 차] Airflow 고급기능과 DBT, 데이터 디스커버리 (1)ELT 작성과 슬랙 연동Docker 기반 Airflow 실행이전에 사용했던 airflow의 docker-compose.yaml의 x-airflow-common과 airf..
Airflow 총 정리Airflow란?Airflow 개념Airflow는 파이썬으로 작성된 데이터 파이프라인(ETL) 프레임워크가장 많이 사용되는 데이터 파이프라인 관리/작성 프레임워크Airflow에서 사용되는 데이터 파이프라인을 DAG(Directed Acyclic Graph)라고 부름Incremental Update 관련 주요 용어start_date : 처음 실행할 때 읽어와야 하는 데이터 ex) Daily, start_date = 05-20이면, 첫 실행은 05-21execution_date : 실행 시점의 날짜를 Airflow의 시스템 변수로 사용 가능catchup : start_date가 과거일 때, 현재까지의 데이터를 수집할지 여부데이터 파이프라인 작성 시 기억할 점데이터 파이프라인에 관한 정보..
Airflow 설치와 프로그래밍SQL 트랜잭션 이해하기중간에 실패하면 불완전 상황에 놓이는 작업이 있다면?은행 이체 과정 : 인출은 성공했지만, 송금에서 문제가 생긴다면?트랜잭션이란?Atomic하게 실행돼야 하는 SQL을 묶어 하나의 작업처럼 처리하는 방법BEGIN과 END 혹은 BEGIN과 COMMIT 사이에 해당 SQL들을 사용ROLLBACK은 BEGIN의 이전 상태로 돌아가라는 SQL 명령Transaction 구간의 SQL 결과는 임시 상태가 되며, 커밋 전에 다른 세션에서 볼 수 없음트랜잭션의 SQL을 최소화하는 것이 좋으며, 위의 경우 auto commit을 사용하는 경우트랜잭션 구현 방법 (1) - autocommitautocommit = True기본적으로 모든 SQL statement가 바로..
데이터 파이프라인 문제점 해결하기41일 차 강의를 들으면서 간단한 파이썬 데이터 파이프라인 실습을 진행하였다. 그런데 몇 가지 문제점이 존재하는데, Extract / Transform / Load 함수 중에 Load 함수를 수정하면 해결된다. [TIL - 41일 차] 데이터 파이프라인과 Airflow (1)데이터 파이프라인(ETL) 소개데이터 파이프라인(ETL) 이란?Data Pipeline = ETL = Data Workflow = DAG(Directed Acyclic Graph)ELT : Extract(데이터 다운로드), Transform(데이터 포맷 변경), Load(데이터 적재)DAG : Airflow에서sanseo.tistory.com문제점불필요한 헤더 : ['name', 'gender']까지 ..