인프라 구축기인프라 구축기 개요인프라 구축 개요데이터 엔지니어링 데브코스 3기를 진행하면서 데이터 파이프라인을 위한 AWS 인프라를 구축했었지만, 네트워크나 보안, 비용 등 관리 측면의 고려 사항은 모두 배제하고 진행하였다. 이번 프로젝트 진행에서 인프라 및 데이터 엔지니어링 역할을 맡게 되었고, 이전에 신경 쓰지 못했던 세부사항과 서비스 사용 이유 등을 고려하여 인프라 구축을 진행해보려 한다. 추가로 인프라 구축을 진행하며, 고민했던 과정을 작성할 것이다.프로젝트 목표 및 규모자동화된 데이터 수집 (크롤링) 및 대시보드 제작데이터 엔지니어링 관점에서 최적화 및 모니터링을 고려하며 진행모든 데이터를 한 달간 수집해도 10GB를 넘지 않을 것이라 추측대규모 데이터 처리 방법보다는 자동화 과정을 모니터링하고..
Airflow 기초 지식Airflow 소개Airflow 개념파이썬으로 작성된 데이터 파이프라인(ETL) 프레임워크가장 많이 사용되는 데이터 파이프라인 관리 프레임워크Airflow 장단점장점데이터 파이프라인을 세밀하게 제어 가능다양한 데이터 소스와 데이터 웨어하우스를 지원Backfill (여러 이유로 과거의 ETL 실행이 안될 경우 과거의 날짜의 ETL을 실행)이 쉬움단점배우기 쉽지 않음상대적으로 개발 환경을 구성하기 힘듦직접 운영이 쉽지 않으며, 클라우드 버전 사용 선호Airflow 관련 용어DAG(Directed Acyclic Graph)Airflow에서 ETL을 부르는 별칭DAG는 하나 이상의 Task로 구성Task오퍼레이터(Operator)로 만들어짐Airflow 내에서 다양한 종류의 오퍼레이터 제..