프로젝트 단위 공부/[부스트코스] DataLit : 데이터 다루기
Ch2-3. PySpark
PySpark 스파크란 하둡 데이터를 위한 빠르고 보편적인 계산 엔진이다. 스파크는 간단하면서 풍부한 표현이 가능한 프로그래밍 모델을 제공하여 ETL, 기계학습, 스트림 처리, 그래프 계산과 같이 넓은 범위의 애플리케이션을 지원한다. 스파크는 매우 빠르고(하둡의 Mapreduce보다 100배 가까이 빠르다), 디스크에서 조차 10배 가까이 빠르다. 스파크는 배치 처리도 가능하며, 스트림 작업, 인터랙티브 쿼리, 기계학습에서 정말 뛰어나다. 또한 Mapreduce의 디스크 기반 배치 처리 엔진에 비해 빠른 실시간 데이터 처리 능력을 갖고 있고 하둡의 모듈과 호환이 가능하다. 스파크와 Mapreduce 스파크는 클러스터 연산 프레임워크이기에 하둡 전체보다는 Mapreduce와 비교된다. 스파크는 독자적인 분..