문제 1) CSV 파일을 읽고 파일에 쓰기 파이스파크로 똑같이 하고 차이를 관찰한다. 아마 여러 개의 파일이 출력되는 것을 확인할 수 있다. 무슨 일이 일어났는지 간단히 설명하고 어떻게 여러 개의 출력물을 하나의 파일로 합칠 수 있을지 간단히 답해보자. Pyspark read/write 파이썬에서 스파크를 활용하기 위해서는 기본적으로 Session을 지정해주어야 한다. from pyspark.sql.session import SparkSession Sparksession을 확인하면 스파크의 버전과 AppName도 함께 출력된다. AppName은 함수를 통해 지정할 수 있다. sc = SparkContext.getOrCreate() spark = SparkSession(sc) spark # SparkSes..
Kubernetes 가장 유명한 오케스트레이션 오픈 소스이다. 서론 쿠버네티스는 구글에 의해 처음 개발됐으며 클러스터 환경에서 컨테이너화된 애플리케이션을 말한다. 연계되어 있고 분산되어있는 구성 요소들을 더 쉽게 관리하고 다양한 인프라에 서비스를 제공한다. 예시 사용법: 웹에서 실행되는 애플리케이션 만들기 1. 클라우드 환경을 만든다. 2. 애플리케이션을 컨테이너화 한다. 3. 컨테이너화 된 애플리케이션을 클라우드에 배포한다. 개괄 쿠버네티스, k8s, 쿠브는 컨테이너 작업(오케스트레이션)을 자동화하는 오픈 소스 플랫폼이다. 배포, 스케일링, 컨테이너화된 애플리케이션 관리를 포함하는 기존 수작업을 없앴습니다. 롤아웃, 롤백, 배포된 서비스 상태 관리를 자동화한다. 사용도에 따라 서비스의 크기를 키우거나 ..
PySpark 스파크란 하둡 데이터를 위한 빠르고 보편적인 계산 엔진이다. 스파크는 간단하면서 풍부한 표현이 가능한 프로그래밍 모델을 제공하여 ETL, 기계학습, 스트림 처리, 그래프 계산과 같이 넓은 범위의 애플리케이션을 지원한다. 스파크는 매우 빠르고(하둡의 Mapreduce보다 100배 가까이 빠르다), 디스크에서 조차 10배 가까이 빠르다. 스파크는 배치 처리도 가능하며, 스트림 작업, 인터랙티브 쿼리, 기계학습에서 정말 뛰어나다. 또한 Mapreduce의 디스크 기반 배치 처리 엔진에 비해 빠른 실시간 데이터 처리 능력을 갖고 있고 하둡의 모듈과 호환이 가능하다. 스파크와 Mapreduce 스파크는 클러스터 연산 프레임워크이기에 하둡 전체보다는 Mapreduce와 비교된다. 스파크는 독자적인 분..
빅데이터 '빅데이터'라는 용어는 실제 데이터를 의미하지 않는다. 너무 거대하거나 복잡한 데이터셋을 분석하고, 체계적으로 정보를 뽑아 내거나 다루기 위한 분야이다. 빅데이터에 관한 4V는 다음과 같고, 꼭 알고 있어야 하는 내용이다. 규모(Volume) : 고객에 대한 종합적인 시각과 더 많은 과거 데이터를 갖고 있으면, 더 많은 통찰을 이끌어낼 수 있다. 속도(Velocity) : 정보를 빠르게 처리할수록 쿼리, 보고서, 대시 보드를 통해 알고 싶은 대답을 유연하게 얻을 수 있다. 다양성(Variaty) : 고객 관계 관리 시스템, 소셜 미디어, 콜 센터 로그 등을 통해서 다양한 고객 데이터가 있을수록 고객에 대해 더 다양한 시각을 키울 수 있다. 정확성(Veracity) : 고객 데이터는 정확한 결정을..