빅데이터 처리와 Hadoop의 등장 데이터의 크기가 증가하면서 서버 한대로 처리할 수 없는 규모의 데이터인 '빅데이터'의 개념이 등장하였다. 이러한 빅데이터를 처리하기 위해 대용량 데이터를 분산 처리하는 기술인 하둡이 등장하였다. 이후 하둡의 생산성을 증진시키기 위해 Spark가 등장하였는데, 여기서는 빅데이터 처리와 Hadoop에 대해 알아보려고 한다!빅데이터 처리빅데이터란?서버 한대로 처리할 수 없는 규모의 데이터기존의 소프트웨어로는 처리할 수 없는 규모의 데이터4V : Volume (크기), Velocity (속도), Variaty (다양성), Veracity (정확성)빅데이터 처리의 특징과 해결 방안빅데이터 처리를 위해 데이터를 분산 저장 및 분산 처리가 필요하며, 결국 다수의 컴퓨터로 구성된 프..
하둡 (Hadoop)과 Spark 개념 정리빅데이터 정의빅데이터 정의빅데이터란 거대한 규모(Volume), 빠른 속도(Velocity), 높은 다양성(Variety)을 특징으로 하는 데이터 (3V)빅데이터는 새로운 데이터 소스에서 나온 더 크고 복잡한 데이터셋서버 한대로 처리할 수 없는 규모의 데이터기존의 소프트웨어로는 처리할 수 없는 데이터양 : Volume빅데이터를 사용하면 비정형 데이터를 대량으로 처리해야 함데이터의 크기는 테라바이트(TB)를 넘어 페타바이트(PB)가 될 수 있음속도 : Velocity속도는 데이터가 얼마나 빠르게 수신 및 처리되는가를 나타냄일반적으로 데이터를 디스크에 기록하는 것보다 메모리로 직접 스트리밍 할 때 속도가 빠름종류 : Variety사용 가능한 데이터의 유형 수를 나타..
빅데이터 처리와 Spark 소개빅데이터와 대용량 분산 시스템빅데이터 정의서버 한대로 처리할 수 없는 규모의 데이터기존의 소프트웨어로는 처리할 수 없는 규모의 데이터4VVolume : 데이터의 크기Velocity : 데이터의 처리 속도Variaty : 구조화 / 비구조화 데이터Veracity : 데이터의 품질빅데이터의 예디바이스 데이터 : 모바일, 스마트 TV, 각종 센서 (IoT) 데이터, 네트워킹 디바이스 등웹수십 조개 이상의 웹 페이지 존재 -> 지식의 바다웹 검색엔진 개발은 진정한 대용량 데이터 처리사용자 검색어와 클릭 정보 자체도 대용량요즘 웹 개발 자체가 NLP 거대 모델 개발의 훈련 데이터로 사용빅데이터 처리의 특징과 해결방안스토리지큰 데이터를 손실 없이 보관할 방법이 필요큰 데이터 저장이 가..
PySpark 스파크란 하둡 데이터를 위한 빠르고 보편적인 계산 엔진이다. 스파크는 간단하면서 풍부한 표현이 가능한 프로그래밍 모델을 제공하여 ETL, 기계학습, 스트림 처리, 그래프 계산과 같이 넓은 범위의 애플리케이션을 지원한다. 스파크는 매우 빠르고(하둡의 Mapreduce보다 100배 가까이 빠르다), 디스크에서 조차 10배 가까이 빠르다. 스파크는 배치 처리도 가능하며, 스트림 작업, 인터랙티브 쿼리, 기계학습에서 정말 뛰어나다. 또한 Mapreduce의 디스크 기반 배치 처리 엔진에 비해 빠른 실시간 데이터 처리 능력을 갖고 있고 하둡의 모듈과 호환이 가능하다. 스파크와 Mapreduce 스파크는 클러스터 연산 프레임워크이기에 하둡 전체보다는 Mapreduce와 비교된다. 스파크는 독자적인 분..