PySpark
스파크란 하둡 데이터를 위한 빠르고 보편적인 계산 엔진이다. 스파크는 간단하면서 풍부한 표현이 가능한 프로그래밍 모델을 제공하여 ETL, 기계학습, 스트림 처리, 그래프 계산과 같이 넓은 범위의 애플리케이션을 지원한다.
스파크는 매우 빠르고(하둡의 Mapreduce보다 100배 가까이 빠르다), 디스크에서 조차 10배 가까이 빠르다. 스파크는 배치 처리도 가능하며, 스트림 작업, 인터랙티브 쿼리, 기계학습에서 정말 뛰어나다. 또한 Mapreduce의 디스크 기반 배치 처리 엔진에 비해 빠른 실시간 데이터 처리 능력을 갖고 있고 하둡의 모듈과 호환이 가능하다.
스파크와 Mapreduce
스파크는 클러스터 연산 프레임워크이기에 하둡 전체보다는 Mapreduce와 비교된다.
- 스파크는 독자적인 분산 파일 시스템은 없지만 HDFS를 사용할 수 있다.
- 스파크는 연산에 메모리와 디스크를 사용할 수 있지만 Mapreduce는 엄격한 디스크 기반이다.
- Mapreduce는 영구 저장소를 사용하지만, 스파크는 탄력 분산 데이터셋(RDD)를 사용한다.
참고 링크
DataLit : 데이터 다루기
'프로젝트 단위 공부 > [부스트코스] DataLit : 데이터 다루기' 카테고리의 다른 글
Ch2-과제. 파이스파크 (0) | 2024.03.15 |
---|---|
Ch2-4. 쿠버네티스 (0) | 2024.02.24 |
Ch2-1. 하둡 (0) | 2023.07.31 |
Ch1-과제. 데이터 시각화 (0) | 2023.07.30 |
Ch1-12. 데이터 시각화 도구 (0) | 2023.07.24 |