하둡 (Hadoop)과 Spark 개념 정리빅데이터 정의빅데이터 정의빅데이터란 거대한 규모(Volume), 빠른 속도(Velocity), 높은 다양성(Variety)을 특징으로 하는 데이터 (3V)빅데이터는 새로운 데이터 소스에서 나온 더 크고 복잡한 데이터셋서버 한대로 처리할 수 없는 규모의 데이터기존의 소프트웨어로는 처리할 수 없는 데이터양 : Volume빅데이터를 사용하면 비정형 데이터를 대량으로 처리해야 함데이터의 크기는 테라바이트(TB)를 넘어 페타바이트(PB)가 될 수 있음속도 : Velocity속도는 데이터가 얼마나 빠르게 수신 및 처리되는가를 나타냄일반적으로 데이터를 디스크에 기록하는 것보다 메모리로 직접 스트리밍 할 때 속도가 빠름종류 : Variety사용 가능한 데이터의 유형 수를 나타..
Airflow 총 정리Airflow란?Airflow 개념Airflow는 파이썬으로 작성된 데이터 파이프라인(ETL) 프레임워크가장 많이 사용되는 데이터 파이프라인 관리/작성 프레임워크Airflow에서 사용되는 데이터 파이프라인을 DAG(Directed Acyclic Graph)라고 부름Incremental Update 관련 주요 용어start_date : 처음 실행할 때 읽어와야 하는 데이터 ex) Daily, start_date = 05-20이면, 첫 실행은 05-21execution_date : 실행 시점의 날짜를 Airflow의 시스템 변수로 사용 가능catchup : start_date가 과거일 때, 현재까지의 데이터를 수집할지 여부데이터 파이프라인 작성 시 기억할 점데이터 파이프라인에 관한 정보..