powerlifting-database

프로젝트 단위 공부/[부스트코스] DataLit : 데이터 다루기

Ch2-과제. 파이스파크

문제 1) CSV 파일을 읽고 파일에 쓰기 파이스파크로 똑같이 하고 차이를 관찰한다. 아마 여러 개의 파일이 출력되는 것을 확인할 수 있다. 무슨 일이 일어났는지 간단히 설명하고 어떻게 여러 개의 출력물을 하나의 파일로 합칠 수 있을지 간단히 답해보자. Pyspark read/write 파이썬에서 스파크를 활용하기 위해서는 기본적으로 Session을 지정해주어야 한다. from pyspark.sql.session import SparkSession Sparksession을 확인하면 스파크의 버전과 AppName도 함께 출력된다. AppName은 함수를 통해 지정할 수 있다. sc = SparkContext.getOrCreate() spark = SparkSession(sc) spark # SparkSes..

프로젝트 단위 공부/[부스트코스] DataLit : 데이터 다루기

Ch1-과제. 데이터 시각화

과제 안내 과제는 시각화 도구를 사용해 선택한 데이터셋에 대한 특정한 질문들을 만들고 대답하는 것이다. 모든 질문의 시작부터 끝까지 과제 수행 과정이 문서화되어야 한다. 이 과제의 목표는 탐색적인 데이터 분석을 수행하기 위해 시각화를 사용하는 과정을 더 잘 이해하는 것이다. 1) 관심 있는 데이터셋 선정 가장 관심 있는 분야의 데이터셋을 고른다. 2) 대답하고 싶은 초기 질문 선정 예를 들어, 녹는점과 원자 번호 사이에 관계가 있나요?, 별의 밝은 정도와 색깔이 서로 연관이 있나요? 등 3) 질문에 답하기 위한 데이터 적합성 평가 데이터의 원시 값을 먼저 보는 것은 도움이 되며, 데이터가 질문에 답하기에 적합한지 확인한다. 적합하지 않다면, 위의 과정을 다시 시작하는 것이 좋다. 시각적으로 분석하기 전에..

기억에 남는 블로그 닉네임
'powerlifting-database' 태그의 글 목록