실시간 데이터 처리 소개구글이 데이터 분야에 끼친 영향구글은 하둡 등을 통한 배치 프로세싱부터, Tensorflow, K8s 등 다양한 형태로 데이터 분야에 영향을 끼쳤다.구글 검색 엔진의 등장2004년부터 세계 최고의 검색엔진으로 등장다양한 논문 발표와 오픈소스 활동으로 개발자 커뮤니티에 큰 영향을 끼침구글 검색 엔진 이전웹의 텍스트와 사용자의 입력 키워드의 매칭 정도가 가장 높은 웹 문서를 상위에 노출검색 결과 페이지에 온갖 종류의 스팸 웹 페이지가 넘쳐나기 시작구글 검색 엔진웹 페이지 간의 링크를 기반으로 중요한 페이지를 찾아 상위에 노출이 알고리즘을 래리 페이지(발표자)의 이름을 따서 페이지 랭크라고 부름페이지 랭크 논문 발표 이후 차세대 검색엔진이 나옴페이지 랭크 소개더 중요한 페이지는 더 많은..
Spark ML 소개Spark ML 소개Spark ML머신러닝 관련 다양한 알고리즘, 유틸리티로 구성된 라이브러리Classification : Logistic regression, Decision Tree, Random Forest, Gradient-boosted Tree 등Regression : Linear Regression, Decision Tree, Random Forest, Gradient-boosted Tree 등 Clustering : K-means, LDA, GMM 등Collaborative Filtering (추천) : 명시적인 피드백(리뷰 평점)과 암묵적인 피드백 기반(클릭, 구매) 딥러닝은 기능이 미약RDD 기반과 데이터 프레임 기반 버전이 존재항상 spark.ml을 사용할 것 :sp..
프로젝트에서 발생했던 오류 정리이번 데브코스에서 프로젝트를 진행하면서 발생했던 오류와 해결 과정을 정리해보려고 한다. 나는 Airflow의 DAG를 작성하는 역할을 맡았기에 데이터를 S3, Redshift에 저장하는 과정에서 에러를 마주치게 되었다.S3에 저장한 csv 열었을 때 한글 깨짐문제 발생API를 통해 데이터를 가져와 데이터 프레임 형태로 만들고, S3에 csv로 저장해 주었다. 에러가 발생하지 않아서 올바르게 작동하나 싶었지만, aws 웹 콘솔로 접속해서 S3의 파일을 직접 열었을 때 한글이 깨지는 것을 확인할 수 있었다. 영어와 숫자는 제대로 나오기 때문에 인코딩-디코딩 과정에서 오류가 있을 것이라 생각했다.문제 해결결론적으로 구글링을 많이 해봤지만, S3의 파일을 다운로드하고 열었을 때 한..
Spark 내부동작Spark 파일 포맷작업에 맞는 파일 최적화 필요Unstructured (비구조화) : TextSemi-structured (반구조화) : json, xml, csvStructured (구조화) : parquet, avro, orc, sequencefileSpark의 주요 파일 포맷Splittable : HDFS 데이터 블록의 Partition으로 바로 올라갈 수 있는지 여부Human readable : 사람이 읽을 수 있는지 여부Nested structure support : subfield를 지원하는지 여부Schema evolution : 스키마가 다른 데이터끼리 사용 가능한지 여부ParquetSpark의 기본 파일 포맷Hybrid Storage 방식하나의 데이터 블록은 하나의 Ro..