전체 글

데이터 엔지니어링, 자동화에 관심을 갖고 공부 중입니다.
[프로그래머스] 데이터 엔지니어링 데브코스 3기/숙제

[숙제 - 51일 차] mau_summary, channel_summary를 config로 옮기기

mau_summary, channel_summery를 config로 옮기기 아래 링크의 'ELT 구현'을 확인해 보면 nps_summary.py를 예시로 config에 대한 이해를 할 수 있다. nps_summary의 형태를 참고하여 mau_summary, channel_summary를 작성해 보자. nps_summary에서는 input_check, output_check를 통해 테스트가 추가되어 있는데, 해당 부분은 제외하고 필요한 부분만 작성할 것이다. [TIL - 51일 차] Airflow 고급기능과 DBT, 데이터 디스커버리 (1)ELT 작성과 슬랙 연동Docker 기반 Airflow 실행이전에 사용했던 airflow의 docker-compose.yaml의 x-airflow-common과 airf..

[프로그래머스] 데이터 엔지니어링 데브코스 3기/TIL(Today I Learn)

[TIL - 51일 차] Airflow 고급기능과 DBT, 데이터 디스커버리 (1)

ELT 작성과 슬랙 연동Docker 기반 Airflow 실행이전에 사용했던 airflow의 docker-compose.yaml의 x-airflow-common과 airflow-init을 수정하여 사용한다.environmentAIRFLOW_VAR_DATA_DIRAIRFLOW_VAR_ : 해당 문자 뒤에 나오는 문자를 이름으로 하는 환경 변수 생성여기서의 환경 변수 이름은 DATA_DIRDAG에서 필요할 수 있는 임시 파일을 저장하기 위한 별도 디렉터리 설정_PIP_ADDITIONAL_REQUIREMENTS : 필요한 파이썬 모듈 설치 ':-' : 만약 해당 파일이 존재하면 사용, 존재하지 않으면 오른쪽 값을 사용 environment: ... AIRFLOW_VAR_DATA_DIR: /opt/airflo..

Data Engineering/Airflow

[Airflow] Airflow 기초 지식

Airflow 기초 지식Airflow 소개Airflow 개념파이썬으로 작성된 데이터 파이프라인(ETL) 프레임워크가장 많이 사용되는 데이터 파이프라인 관리 프레임워크Airflow 장단점장점데이터 파이프라인을 세밀하게 제어 가능다양한 데이터 소스와 데이터 웨어하우스를 지원Backfill (여러 이유로 과거의 ETL 실행이 안될 경우 과거의 날짜의 ETL을 실행)이 쉬움단점배우기 쉽지 않음상대적으로 개발 환경을 구성하기 힘듦직접 운영이 쉽지 않으며, 클라우드 버전 사용 선호Airflow 관련 용어DAG(Directed Acyclic Graph)Airflow에서 ETL을 부르는 별칭DAG는 하나 이상의 Task로 구성Task오퍼레이터(Operator)로 만들어짐Airflow 내에서 다양한 종류의 오퍼레이터 제..

프로젝트 단위 공부/[개인 프로젝트] FC Online 공식 경기 분석

[개인 프로젝트] FC Online 공식 경기 분석 (7) - EC2 / crontab 자동화 2

이전에 EC2와 crontab을 사용해서 API의 데이터를 S3에 적재하는 작업을 진행하였다. 이번에는 EC2와 crontab을 사용해서 S3의 csv 파일을 Snowflake 테이블로 저장하는 작업을 진행할 것이다. [개인 프로젝트] FC Online 공식 경기 분석 (6) - EC2 / crontab 자동화 1이전에 Snowflake의 analytics Schema의 테이블을 생성하는 작업을 하였다. 이번에는 작성했던 python 파일(S3 적재)이 한 시간마다 자동으로 실행될 수 있도록 EC2 인스턴스를 생성하고 Crontab 서비스를 실sanseo.tistory.com수정사항scraping.pyAPI의 Schema에는 matchResult가 0, 1, 2만 존재했지만, 실제로 확인했을 때 4가 존..

기억에 남는 블로그 닉네임
얕게, 깊게