Data Engineering

Data Engineering/빅데이터

[빅데이터] 빅데이터 처리와 Hadoop의 등장

빅데이터 처리와 Hadoop의 등장 데이터의 크기가 증가하면서 서버 한대로 처리할 수 없는 규모의 데이터인 '빅데이터'의 개념이 등장하였다. 이러한 빅데이터를 처리하기 위해 대용량 데이터를 분산 처리하는 기술인 하둡이 등장하였다. 이후 하둡의 생산성을 증진시키기 위해 Spark가 등장하였는데, 여기서는 빅데이터 처리와 Hadoop에 대해 알아보려고 한다!빅데이터 처리빅데이터란?서버 한대로 처리할 수 없는 규모의 데이터기존의 소프트웨어로는 처리할 수 없는 규모의 데이터4V : Volume (크기), Velocity (속도), Variaty (다양성), Veracity (정확성)빅데이터 처리의 특징과 해결 방안빅데이터 처리를 위해 데이터를 분산 저장 및 분산 처리가 필요하며, 결국 다수의 컴퓨터로 구성된 프..

Data Engineering/빅데이터

[빅데이터] 하둡 (Hadoop)과 Spark 개념 정리

하둡 (Hadoop)과 Spark 개념 정리빅데이터 정의빅데이터 정의빅데이터란 거대한 규모(Volume), 빠른 속도(Velocity), 높은 다양성(Variety)을 특징으로 하는 데이터 (3V)빅데이터는 새로운 데이터 소스에서 나온 더 크고 복잡한 데이터셋서버 한대로 처리할 수 없는 규모의 데이터기존의 소프트웨어로는 처리할 수 없는 데이터양 : Volume빅데이터를 사용하면 비정형 데이터를 대량으로 처리해야 함데이터의 크기는 테라바이트(TB)를 넘어 페타바이트(PB)가 될 수 있음속도 : Velocity속도는 데이터가 얼마나 빠르게 수신 및 처리되는가를 나타냄일반적으로 데이터를 디스크에 기록하는 것보다 메모리로 직접 스트리밍 할 때 속도가 빠름종류 : Variety사용 가능한 데이터의 유형 수를 나타..

Data Engineering/Airflow

[Airflow] DAG Scheduling과 Execution

Airflow Scheduling과 Execution개요Airflow 관리Airflow를 사용하면서 반드시 알아야 할 것이 "작성한 DAG가 언제, 얼마나 실행되는가?"일 것이다. Airflow에서는 관련 개념을 숙지하지 않으면, 해당 DAG의 실행 유무에 대한 답을 내릴 수 없다. 그래서 Airflow를 활용해 DAG를 제대로 관리하기 위해서는 start_date, execution_date와 더불어 관련 개념을 이해해야 한다.DAG 선언 예시일반적인 DAG를 선언한 예제이다. 해당 Job이 "2024-06-09 04:00:00"에 활성화될 때, 총 몇 번의 DAG가 실행되는지 바로 떠올리기는 쉽지 않다. 그러나 관련 용어의 개념과 타임테이블을 반복적으로 이해하다 보면, 어렵지 않게 떠올릴 수 있을 것..

Data Engineering/기타

[dbt] materialized type을 변경하는 두 가지 방법

materialized type 변경model의 matrerializad type에는 View, Table, CTE 등이 존재View : SELECT 결과를 기반으로 만들어진 가상테이블CTE : WITH - AS와 같이 사용된 뒤 사라지는 테이블Table : 실제 물리적인 테이블 "models/analytics/analytics_variant_user_daily.sql"을 예시로 type을 변경하는 작업 진행dbt_projct.yml을 수정해서 변경 analytics_variant_user_daily.sql을 수정해서 변경초기 상태dbt_project.ymldbt 프로젝트 이름은 learn_dbtdim 디렉터리 내부의 .sql은 table로 생성src 디렉터리 내부의 .sql은 ephemeral(CTE)..

기억에 남는 블로그 닉네임
'Data Engineering' 카테고리의 글 목록 (5 Page)