Data Engineering/빅데이터

Data Engineering/빅데이터

[빅데이터] csv vs parquet vs avro vs orc

csv vs parquet vs avro vs orc데이터를 저장, 처리하기 위해 csv, parquet, avro, orc 등의 다양한 파일 유형을 사용한다. 각 유형에 따라 특징이 존재하며, 데이터 처리의 성능이 달라진다. 이에 따라 파일 유형이 데이터 처리 비용과 성능을 좌우할 수 있기에 상황에 맞는 것을 선택해 활용하는 것이 중요하다. 그중에서 가장 알려져 있고, 자주 사용되는 유형인 csv, parquet, avro, orc 유형의 개념과 장단점, 유스케이스를 알아보자.대용량 데이터 저장 = 높은 비용긴 읽기/쓰기 시간 = 느린 시스템, 높은 연산 능력높은 연산 능력 = 비용 증가csv (Comma-Separated Values)# csv 파일 예시 (test.csv)timestamp,produ..

Data Engineering/빅데이터

[빅데이터] 빅데이터 처리와 Hadoop의 등장

빅데이터 처리와 Hadoop의 등장 데이터의 크기가 증가하면서 서버 한대로 처리할 수 없는 규모의 데이터인 '빅데이터'의 개념이 등장하였다. 이러한 빅데이터를 처리하기 위해 대용량 데이터를 분산 처리하는 기술인 하둡이 등장하였다. 이후 하둡의 생산성을 증진시키기 위해 Spark가 등장하였는데, 여기서는 빅데이터 처리와 Hadoop에 대해 알아보려고 한다!빅데이터 처리빅데이터란?서버 한대로 처리할 수 없는 규모의 데이터기존의 소프트웨어로는 처리할 수 없는 규모의 데이터4V : Volume (크기), Velocity (속도), Variaty (다양성), Veracity (정확성)빅데이터 처리의 특징과 해결 방안빅데이터 처리를 위해 데이터를 분산 저장 및 분산 처리가 필요하며, 결국 다수의 컴퓨터로 구성된 프..

Data Engineering/빅데이터

[빅데이터] 하둡 (Hadoop)과 Spark 개념 정리

하둡 (Hadoop)과 Spark 개념 정리빅데이터 정의빅데이터 정의빅데이터란 거대한 규모(Volume), 빠른 속도(Velocity), 높은 다양성(Variety)을 특징으로 하는 데이터 (3V)빅데이터는 새로운 데이터 소스에서 나온 더 크고 복잡한 데이터셋서버 한대로 처리할 수 없는 규모의 데이터기존의 소프트웨어로는 처리할 수 없는 데이터양 : Volume빅데이터를 사용하면 비정형 데이터를 대량으로 처리해야 함데이터의 크기는 테라바이트(TB)를 넘어 페타바이트(PB)가 될 수 있음속도 : Velocity속도는 데이터가 얼마나 빠르게 수신 및 처리되는가를 나타냄일반적으로 데이터를 디스크에 기록하는 것보다 메모리로 직접 스트리밍 할 때 속도가 빠름종류 : Variety사용 가능한 데이터의 유형 수를 나타..

기억에 남는 블로그 닉네임
'Data Engineering/빅데이터' 카테고리의 글 목록