spark streaming

[프로그래머스] 데이터 엔지니어링 데브코스 3기/TIL(Today I Learn)

[TIL - 70일 차] Kafka와 Spark Streaming 기반 스트리밍 처리 (5)

Spark Streaming 소개와 Kafka 연동Spark Streaming 소개Spark버클리 대학의 AMPLab에서 Apache 오픈소스 프로젝트로 2013년 시작하둡의 뒤를 잇는 2세대 빅데이터 기술YARN 등을 분산환경으로 사용Scala로 작성됨빅데이터 처리 관련 다양한 기능 제공구성Spark Core, Spark SQL, Spark ML, Spark StreamingSpark Streaming실시간 데이터 스트림 처리를 위함 Spark APIKafka, Kinesis, Flume, TCP 소켓 등의 다양한 소스에서 발생하는 데이터 처리 가능Join, Map, Reduce, Window와 같은 고급 함수 사용 가능Spark Streaming 동작 방식데이터를 마이크로 배치로 처리하는 과정을 반복..

[프로그래머스] 데이터 엔지니어링 데브코스 3기/TIL(Today I Learn)

[TIL - 66일 차] Kafka와 Spark Streaming 기반 스트리밍 처리 (1)

실시간 데이터 처리 소개구글이 데이터 분야에 끼친 영향구글은 하둡 등을 통한 배치 프로세싱부터, Tensorflow, K8s 등 다양한 형태로 데이터 분야에 영향을 끼쳤다.구글 검색 엔진의 등장2004년부터 세계 최고의 검색엔진으로 등장다양한 논문 발표와 오픈소스 활동으로 개발자 커뮤니티에 큰 영향을 끼침구글 검색 엔진 이전웹의 텍스트와 사용자의 입력 키워드의 매칭 정도가 가장 높은 웹 문서를 상위에 노출검색 결과 페이지에 온갖 종류의 스팸 웹 페이지가 넘쳐나기 시작구글 검색 엔진웹 페이지 간의 링크를 기반으로 중요한 페이지를 찾아 상위에 노출이 알고리즘을 래리 페이지(발표자)의 이름을 따서 페이지 랭크라고 부름페이지 랭크 논문 발표 이후 차세대 검색엔진이 나옴페이지 랭크 소개더 중요한 페이지는 더 많은..

기억에 남는 블로그 닉네임
'spark streaming' 태그의 글 목록