데이터사이언스 발표 가이드 '데이터 발표'는 사람들이 연구를 구성 및 요약, 소통하는 방법으로 차트, 그래프, 히스토그램, 분산 차트, 다이어그램과 같이 다양한 도구를 이용한다. 데이터를 표현하는 방법은 데이터의 양, 복잡도, 청중에 따라 달라질 수 있다. 정보의 종류 어떤 데이터를 다루는지가 어떻게 표현하고 싶은지보다 중요하다. 만약 데이터가 문자열이라면 히스토그램으로는 나타내기 힘들다. 따라서 올바른 시각화 방법을 주의해서 고르는 것이 중요하다. 흔히 기술자들은 의사결정자가 이야기를 잘 들어주지 않는다고 생각한다. 정보를 설명하는데 있어 적합한 방법을 선택하지 않으면 사업가들과 데이터에 대해 명확히 소통할 수 없다. 데이터의 양 무언가를 설명할 때는 단순해야 한다. 큰 숫자를 활용하게 되면 정보를 이..
문제 1) CSV 파일을 읽고 파일에 쓰기 파이스파크로 똑같이 하고 차이를 관찰한다. 아마 여러 개의 파일이 출력되는 것을 확인할 수 있다. 무슨 일이 일어났는지 간단히 설명하고 어떻게 여러 개의 출력물을 하나의 파일로 합칠 수 있을지 간단히 답해보자. Pyspark read/write 파이썬에서 스파크를 활용하기 위해서는 기본적으로 Session을 지정해주어야 한다. from pyspark.sql.session import SparkSession Sparksession을 확인하면 스파크의 버전과 AppName도 함께 출력된다. AppName은 함수를 통해 지정할 수 있다. sc = SparkContext.getOrCreate() spark = SparkSession(sc) spark # SparkSes..
Kubernetes 가장 유명한 오케스트레이션 오픈 소스이다. 서론 쿠버네티스는 구글에 의해 처음 개발됐으며 클러스터 환경에서 컨테이너화된 애플리케이션을 말한다. 연계되어 있고 분산되어있는 구성 요소들을 더 쉽게 관리하고 다양한 인프라에 서비스를 제공한다. 예시 사용법: 웹에서 실행되는 애플리케이션 만들기 1. 클라우드 환경을 만든다. 2. 애플리케이션을 컨테이너화 한다. 3. 컨테이너화 된 애플리케이션을 클라우드에 배포한다. 개괄 쿠버네티스, k8s, 쿠브는 컨테이너 작업(오케스트레이션)을 자동화하는 오픈 소스 플랫폼이다. 배포, 스케일링, 컨테이너화된 애플리케이션 관리를 포함하는 기존 수작업을 없앴습니다. 롤아웃, 롤백, 배포된 서비스 상태 관리를 자동화한다. 사용도에 따라 서비스의 크기를 키우거나 ..
PySpark 스파크란 하둡 데이터를 위한 빠르고 보편적인 계산 엔진이다. 스파크는 간단하면서 풍부한 표현이 가능한 프로그래밍 모델을 제공하여 ETL, 기계학습, 스트림 처리, 그래프 계산과 같이 넓은 범위의 애플리케이션을 지원한다. 스파크는 매우 빠르고(하둡의 Mapreduce보다 100배 가까이 빠르다), 디스크에서 조차 10배 가까이 빠르다. 스파크는 배치 처리도 가능하며, 스트림 작업, 인터랙티브 쿼리, 기계학습에서 정말 뛰어나다. 또한 Mapreduce의 디스크 기반 배치 처리 엔진에 비해 빠른 실시간 데이터 처리 능력을 갖고 있고 하둡의 모듈과 호환이 가능하다. 스파크와 Mapreduce 스파크는 클러스터 연산 프레임워크이기에 하둡 전체보다는 Mapreduce와 비교된다. 스파크는 독자적인 분..