TIME

프로젝트 단위 공부/[부스트코스] DataLit : 데이터 다루기

Ch2-과제. 파이스파크

문제 1) CSV 파일을 읽고 파일에 쓰기 파이스파크로 똑같이 하고 차이를 관찰한다. 아마 여러 개의 파일이 출력되는 것을 확인할 수 있다. 무슨 일이 일어났는지 간단히 설명하고 어떻게 여러 개의 출력물을 하나의 파일로 합칠 수 있을지 간단히 답해보자. Pyspark read/write 파이썬에서 스파크를 활용하기 위해서는 기본적으로 Session을 지정해주어야 한다. from pyspark.sql.session import SparkSession Sparksession을 확인하면 스파크의 버전과 AppName도 함께 출력된다. AppName은 함수를 통해 지정할 수 있다. sc = SparkContext.getOrCreate() spark = SparkSession(sc) spark # SparkSes..

기억에 남는 블로그 닉네임
'TIME' 태그의 글 목록