빅데이터 처리와 Hadoop의 등장 데이터의 크기가 증가하면서 서버 한대로 처리할 수 없는 규모의 데이터인 '빅데이터'의 개념이 등장하였다. 이러한 빅데이터를 처리하기 위해 대용량 데이터를 분산 처리하는 기술인 하둡이 등장하였다. 이후 하둡의 생산성을 증진시키기 위해 Spark가 등장하였는데, 여기서는 빅데이터 처리와 Hadoop에 대해 알아보려고 한다!빅데이터 처리빅데이터란?서버 한대로 처리할 수 없는 규모의 데이터기존의 소프트웨어로는 처리할 수 없는 규모의 데이터4V : Volume (크기), Velocity (속도), Variaty (다양성), Veracity (정확성)빅데이터 처리의 특징과 해결 방안빅데이터 처리를 위해 데이터를 분산 저장 및 분산 처리가 필요하며, 결국 다수의 컴퓨터로 구성된 프..
빅데이터 처리와 Spark 소개빅데이터와 대용량 분산 시스템빅데이터 정의서버 한대로 처리할 수 없는 규모의 데이터기존의 소프트웨어로는 처리할 수 없는 규모의 데이터4VVolume : 데이터의 크기Velocity : 데이터의 처리 속도Variaty : 구조화 / 비구조화 데이터Veracity : 데이터의 품질빅데이터의 예디바이스 데이터 : 모바일, 스마트 TV, 각종 센서 (IoT) 데이터, 네트워킹 디바이스 등웹수십 조개 이상의 웹 페이지 존재 -> 지식의 바다웹 검색엔진 개발은 진정한 대용량 데이터 처리사용자 검색어와 클릭 정보 자체도 대용량요즘 웹 개발 자체가 NLP 거대 모델 개발의 훈련 데이터로 사용빅데이터 처리의 특징과 해결방안스토리지큰 데이터를 손실 없이 보관할 방법이 필요큰 데이터 저장이 가..
빅데이터 '빅데이터'라는 용어는 실제 데이터를 의미하지 않는다. 너무 거대하거나 복잡한 데이터셋을 분석하고, 체계적으로 정보를 뽑아 내거나 다루기 위한 분야이다. 빅데이터에 관한 4V는 다음과 같고, 꼭 알고 있어야 하는 내용이다. 규모(Volume) : 고객에 대한 종합적인 시각과 더 많은 과거 데이터를 갖고 있으면, 더 많은 통찰을 이끌어낼 수 있다. 속도(Velocity) : 정보를 빠르게 처리할수록 쿼리, 보고서, 대시 보드를 통해 알고 싶은 대답을 유연하게 얻을 수 있다. 다양성(Variaty) : 고객 관계 관리 시스템, 소셜 미디어, 콜 센터 로그 등을 통해서 다양한 고객 데이터가 있을수록 고객에 대해 더 다양한 시각을 키울 수 있다. 정확성(Veracity) : 고객 데이터는 정확한 결정을..