실시간 데이터 처리 소개구글이 데이터 분야에 끼친 영향구글은 하둡 등을 통한 배치 프로세싱부터, Tensorflow, K8s 등 다양한 형태로 데이터 분야에 영향을 끼쳤다.구글 검색 엔진의 등장2004년부터 세계 최고의 검색엔진으로 등장다양한 논문 발표와 오픈소스 활동으로 개발자 커뮤니티에 큰 영향을 끼침구글 검색 엔진 이전웹의 텍스트와 사용자의 입력 키워드의 매칭 정도가 가장 높은 웹 문서를 상위에 노출검색 결과 페이지에 온갖 종류의 스팸 웹 페이지가 넘쳐나기 시작구글 검색 엔진웹 페이지 간의 링크를 기반으로 중요한 페이지를 찾아 상위에 노출이 알고리즘을 래리 페이지(발표자)의 이름을 따서 페이지 랭크라고 부름페이지 랭크 논문 발표 이후 차세대 검색엔진이 나옴페이지 랭크 소개더 중요한 페이지는 더 많은..
Spark ML 소개Spark ML 소개Spark ML머신러닝 관련 다양한 알고리즘, 유틸리티로 구성된 라이브러리Classification : Logistic regression, Decision Tree, Random Forest, Gradient-boosted Tree 등Regression : Linear Regression, Decision Tree, Random Forest, Gradient-boosted Tree 등 Clustering : K-means, LDA, GMM 등Collaborative Filtering (추천) : 명시적인 피드백(리뷰 평점)과 암묵적인 피드백 기반(클릭, 구매) 딥러닝은 기능이 미약RDD 기반과 데이터 프레임 기반 버전이 존재항상 spark.ml을 사용할 것 :sp..
Spark 내부동작Spark 파일 포맷작업에 맞는 파일 최적화 필요Unstructured (비구조화) : TextSemi-structured (반구조화) : json, xml, csvStructured (구조화) : parquet, avro, orc, sequencefileSpark의 주요 파일 포맷Splittable : HDFS 데이터 블록의 Partition으로 바로 올라갈 수 있는지 여부Human readable : 사람이 읽을 수 있는지 여부Nested structure support : subfield를 지원하는지 여부Schema evolution : 스키마가 다른 데이터끼리 사용 가능한지 여부ParquetSpark의 기본 파일 포맷Hybrid Storage 방식하나의 데이터 블록은 하나의 Ro..
Spark 프로그래밍 : SQLSpark SQL 소개Spark SQL과 Spark DataFrame의 차이점과 Spark SQL의 사용법을 알아보자.SQL의 중요성데이터 분야의 필수적인 기본 기술구조화된 데이터를 다룬다면, SQL은 데이터 규모와 관계없이 쓰임모든 대용량 DW는 SQL 기반 : Redshift, Snowflake, BigQuery, Hive/PrestoSpark도 Spark SQL 지원Spark SQL구조화된 데이터 처리를 위한 Spark 모듈데이터 프레임 작업을 SQL로 처리 가능데이터 프레임이 테이블 이름 지정 후 sql 함수 사용 가능HQL(Hive Query Language)과 호환 가능Spark SQL vs DataFrameSQL로 가능한 작업이라면 DataFrame을 사용할 이..