pyspark

Ch2-과제. 파이스파크

2024.03.15

문제 1) CSV 파일을 읽고 파일에 쓰기 파이스파크로 똑같이 하고 차이를 관찰한다. 아마 여러 개의 파일이 출력되는 것을 확인할 수 있다. 무슨 일이 일어났는지 간단히 설명하고 어떻게 여러 개의 출력물을 하나의 파일로 합칠 수 있을지 간단히 답해보자. Pyspark read/write 파이썬에서 스파크를 활용하기 위해서는 기본적으로 Session을 지정해주어야 한다. from pyspark.sql.session import SparkSession Sparksession을 확인하면 스파크의 버전과 AppName도 함께 출력된다. AppName은 함수를 통해 지정할 수 있다. sc = SparkContext.getOrCreate() spark = SparkSession(sc) spark # SparkSes..

프로젝트 단위 공부/[부스트코스] DataLit : 데이터 다루기

Ch2-3. PySpark

2023.08.01

PySpark 스파크란 하둡 데이터를 위한 빠르고 보편적인 계산 엔진이다. 스파크는 간단하면서 풍부한 표현이 가능한 프로그래밍 모델을 제공하여 ETL, 기계학습, 스트림 처리, 그래프 계산과 같이 넓은 범위의 애플리케이션을 지원한다. 스파크는 매우 빠르고(하둡의 Mapreduce보다 100배 가까이 빠르다), 디스크에서 조차 10배 가까이 빠르다. 스파크는 배치 처리도 가능하며, 스트림 작업, 인터랙티브 쿼리, 기계학습에서 정말 뛰어나다. 또한 Mapreduce의 디스크 기반 배치 처리 엔진에 비해 빠른 실시간 데이터 처리 능력을 갖고 있고 하둡의 모듈과 호환이 가능하다. 스파크와 Mapreduce 스파크는 클러스터 연산 프레임워크이기에 하둡 전체보다는 Mapreduce와 비교된다. 스파크는 독자적인 분..

Ch2-과제. 파이스파크

Ch2-3. PySpark

티스토리툴바