데브코스 최종 프로젝트에서 ETL을 위해 AWS Glue를 사용하려고 한다. 그러나 개념을 아직 모르기 때문에 AWS Glue의 개념과 어떤 역할을 하는지 알아보려고 한다.AWS GlueAWS Glue 사용 예제 : 실제로 사용할 때에는 아래의 링크를 참고해서 진행[Hands On] AWS Glue Studio로 ETL 작업 (농심)[Hands On] Glue를 이용한 데이터 전처리 (교보)AWS Glue 개념과 구성 요소AWS Glue 개념완전 관리형 데이터 추출 변환 및 적재(ETL) 서비스여러 데이터 스토어 및 데이터 스트림 간에 원하는 데이터를 분류, 정리, 보강, 이동 가능AWS Glue 특징서버리스이므로 설정하거나 관리할 인프라가 없음원본/변경 데이터의 저장을 위한 별도의 저장소가 필요 없고,..
프로젝트 설명 및 회고프로젝트 소개깃허브 링크 GitHub - lv1turtle/tourist_visitation_patterns_by_weatherContribute to lv1turtle/tourist_visitation_patterns_by_weather development by creating an account on GitHub.github.com진행 기간2024.06.10 ~ 2024.06.14 (5일)주제기상에 따른 관광지 방문 현황 파악프로젝트 인원 구성총 4명Airflow 서버 환경 구축, Github Action 작성한국관광공사 관광지 방문자 수 API 데이터 추출 DAG 작성ERD 작성, dbt를 활용한 ELT 구축기상청 관광지 날씨 정보 API 데이터 추출 DAG 작성나의 역할한국..
mau_summary, channel_summery를 config로 옮기기 아래 링크의 'ELT 구현'을 확인해 보면 nps_summary.py를 예시로 config에 대한 이해를 할 수 있다. nps_summary의 형태를 참고하여 mau_summary, channel_summary를 작성해 보자. nps_summary에서는 input_check, output_check를 통해 테스트가 추가되어 있는데, 해당 부분은 제외하고 필요한 부분만 작성할 것이다. [TIL - 51일 차] Airflow 고급기능과 DBT, 데이터 디스커버리 (1)ELT 작성과 슬랙 연동Docker 기반 Airflow 실행이전에 사용했던 airflow의 docker-compose.yaml의 x-airflow-common과 airf..
Airflow 기초 지식Airflow 소개Airflow 개념파이썬으로 작성된 데이터 파이프라인(ETL) 프레임워크가장 많이 사용되는 데이터 파이프라인 관리 프레임워크Airflow 장단점장점데이터 파이프라인을 세밀하게 제어 가능다양한 데이터 소스와 데이터 웨어하우스를 지원Backfill (여러 이유로 과거의 ETL 실행이 안될 경우 과거의 날짜의 ETL을 실행)이 쉬움단점배우기 쉽지 않음상대적으로 개발 환경을 구성하기 힘듦직접 운영이 쉽지 않으며, 클라우드 버전 사용 선호Airflow 관련 용어DAG(Directed Acyclic Graph)Airflow에서 ETL을 부르는 별칭DAG는 하나 이상의 Task로 구성Task오퍼레이터(Operator)로 만들어짐Airflow 내에서 다양한 종류의 오퍼레이터 제..