서문 좋은 데이터와 통찰력 있는 스토리텔링은 직관적이다. 데이터 스토리텔링은 분석적 발견을 효과적으로 전달하기 위한 투자이다. 데이터가 영향력 있는 이야기를 위한 핵심이라는 것을 알고 있지만, 어떻게 전달할지 이해하는 사람은 많지 않다. 데이터 + 스토리텔링 + 디자인 = 데이터 스토리텔링 데이터 - 데이터를 얻는 방법 공개 데이터 미국인구조사국 유럽 연합 개방형 데이터 포털 Datacatalog.org NHS 보건 및 사회 복지 정보 센터 아마존 웹 서비스 공공 데이터셋 구글 파이낸스 픽토차트 데이터베이스 비공개 데이터 페이스북 인사이트 메일침프 애널리틱스 구글 애널리틱스 스토리텔링 - 버즈스모의 다섯 가지 핵심 이야기 트렌트 파악하기 트렌드는 어떤 것이 변화하거나 발전하는 보편적인 방향을 가리키는 지..
데이터 스토리텔링 모든 산업은 데이터 기반 의사 결정으로부터 이득을 얻을 수 있다. 하지만 원시 형태의 데이터에서 의사 결정에 도움이 될만한 형태로 바꾸는 것은 쉬운 작업이 아니다. 최종 의사 결정을 하는 사람이 기술적 배경 지식이 없는 경우가 종종 있는데, 이때 데이터 스토리텔링의 가치를 확인할 수 있다. 과학적 분석과의 결합 양질의 데이터를 보급하는 사람으로써, 과학적인 보고와 전통적인 스토리텔링의 장점을 최대한 많이 가져와 정확하면서도 이해하기 쉬운 사실을 전달하는 것이 목표이다. 과학의 장점 재현성 : 과학자는 실험을 어떻게 진행했는지 설명하여 사람들이 결과를 검증할 수 있도록 한다. 출처 : 출처가 잘 표기되어 있는 자료는 가치를 이해하는데 도움이 된다. 가정 : 과학적 질문의 기본 단위는 가설..
데이터사이언스 발표 가이드 '데이터 발표'는 사람들이 연구를 구성 및 요약, 소통하는 방법으로 차트, 그래프, 히스토그램, 분산 차트, 다이어그램과 같이 다양한 도구를 이용한다. 데이터를 표현하는 방법은 데이터의 양, 복잡도, 청중에 따라 달라질 수 있다. 정보의 종류 어떤 데이터를 다루는지가 어떻게 표현하고 싶은지보다 중요하다. 만약 데이터가 문자열이라면 히스토그램으로는 나타내기 힘들다. 따라서 올바른 시각화 방법을 주의해서 고르는 것이 중요하다. 흔히 기술자들은 의사결정자가 이야기를 잘 들어주지 않는다고 생각한다. 정보를 설명하는데 있어 적합한 방법을 선택하지 않으면 사업가들과 데이터에 대해 명확히 소통할 수 없다. 데이터의 양 무언가를 설명할 때는 단순해야 한다. 큰 숫자를 활용하게 되면 정보를 이..
문제 1) CSV 파일을 읽고 파일에 쓰기 파이스파크로 똑같이 하고 차이를 관찰한다. 아마 여러 개의 파일이 출력되는 것을 확인할 수 있다. 무슨 일이 일어났는지 간단히 설명하고 어떻게 여러 개의 출력물을 하나의 파일로 합칠 수 있을지 간단히 답해보자. Pyspark read/write 파이썬에서 스파크를 활용하기 위해서는 기본적으로 Session을 지정해주어야 한다. from pyspark.sql.session import SparkSession Sparksession을 확인하면 스파크의 버전과 AppName도 함께 출력된다. AppName은 함수를 통해 지정할 수 있다. sc = SparkContext.getOrCreate() spark = SparkSession(sc) spark # SparkSes..