til

[프로그래머스] 데이터 엔지니어링 데브코스 3기/TIL(Today I Learn)

[TIL - 68일 차] Kafka와 Spark Streaming 기반 스트리밍 처리 (3)

KafkaKafka 소개Kafka의 탄생2008년 LinkedIn에서 내부 실시간 데이터 처리를 위해 개발한 소프트웨어 플랫폼 (Scala, Java)2011년 초에 오픈소스화 (Apache)현재 포춘지 선정 100대 기업 중 80% 이상이 Kafka 사용Kafka 소개실시간 데이터 처리를 위한 오픈소스 분산 스트리밍 플랫폼Scalability와 Fault Tolerance를 제공하는 Publish-Subscription 메시징 시스템High Throughput & Low Latency으로 실시간 데이터 처리에 맞게 구현분산 아키텍처를 따르기 때문에 Scale Out(서버=Broker) 형태로 스케일 가능정해진 보유 기간 (retention period) 동안 메시지 저장기존 메시징 시스템 및 데이터 베..

[프로그래머스] 데이터 엔지니어링 데브코스 3기/TIL(Today I Learn)

[TIL - 67일 차] Kafka와 Spark Streaming 기반 스트리밍 처리 (2)

Udemy 데이터 시스템 발전 여정 살펴보기Udemy 데이터 팀 빌딩 여정2014년 8월 : 데이터 엔지니어링 팀 설립데이터 웨어하우스 (Redshift) 도입데이터 소스 추가 요청을 받는 슬랙 채널 개설ETL 프로세스 개발처음에는 crontab으로 관리하다 Pinterest의 Pinball로 이전기본 개발 언어는 파이썬, 지금은 Airflow 사용B2B 강사 보수 계산 (소비율에 따라 계산)중요 파이프라인의 경우 SLA (Service Level Agreement) 설정 후 지표 계산백엔드/프런트엔드 엔지니어링 팀과 다양한 협업 시작Incremental Update를 하기 위해 프로덕션 DB 테이블 스키마 변경updated_at과 deleted 필드 추가사용자 이벤트 로그를 프로덕션 DB에서 nginx..

[프로그래머스] 데이터 엔지니어링 데브코스 3기/TIL(Today I Learn)

[TIL - 66일 차] Kafka와 Spark Streaming 기반 스트리밍 처리 (1)

실시간 데이터 처리 소개구글이 데이터 분야에 끼친 영향구글은 하둡 등을 통한 배치 프로세싱부터, Tensorflow, K8s 등 다양한 형태로 데이터 분야에 영향을 끼쳤다.구글 검색 엔진의 등장2004년부터 세계 최고의 검색엔진으로 등장다양한 논문 발표와 오픈소스 활동으로 개발자 커뮤니티에 큰 영향을 끼침구글 검색 엔진 이전웹의 텍스트와 사용자의 입력 키워드의 매칭 정도가 가장 높은 웹 문서를 상위에 노출검색 결과 페이지에 온갖 종류의 스팸 웹 페이지가 넘쳐나기 시작구글 검색 엔진웹 페이지 간의 링크를 기반으로 중요한 페이지를 찾아 상위에 노출이 알고리즘을 래리 페이지(발표자)의 이름을 따서 페이지 랭크라고 부름페이지 랭크 논문 발표 이후 차세대 검색엔진이 나옴페이지 랭크 소개더 중요한 페이지는 더 많은..

[프로그래머스] 데이터 엔지니어링 데브코스 3기/TIL(Today I Learn)

[TIL - 65일 차] 하둡과 Spark (5)

Spark ML 소개Spark ML 소개Spark ML머신러닝 관련 다양한 알고리즘, 유틸리티로 구성된 라이브러리Classification : Logistic regression, Decision Tree, Random Forest, Gradient-boosted Tree 등Regression : Linear Regression, Decision Tree, Random Forest, Gradient-boosted Tree 등 Clustering : K-means, LDA, GMM 등Collaborative Filtering (추천) : 명시적인 피드백(리뷰 평점)과 암묵적인 피드백 기반(클릭, 구매) 딥러닝은 기능이 미약RDD 기반과 데이터 프레임 기반 버전이 존재항상 spark.ml을 사용할 것 :sp..

기억에 남는 블로그 닉네임
'til' 태그의 글 목록 (4 Page)