데이터 인프라

[프로그래머스] 데이터 엔지니어링 데브코스 3기/TIL(Today I Learn)

[TIL - 67일 차] Kafka와 Spark Streaming 기반 스트리밍 처리 (2)

Udemy 데이터 시스템 발전 여정 살펴보기Udemy 데이터 팀 빌딩 여정2014년 8월 : 데이터 엔지니어링 팀 설립데이터 웨어하우스 (Redshift) 도입데이터 소스 추가 요청을 받는 슬랙 채널 개설ETL 프로세스 개발처음에는 crontab으로 관리하다 Pinterest의 Pinball로 이전기본 개발 언어는 파이썬, 지금은 Airflow 사용B2B 강사 보수 계산 (소비율에 따라 계산)중요 파이프라인의 경우 SLA (Service Level Agreement) 설정 후 지표 계산백엔드/프런트엔드 엔지니어링 팀과 다양한 협업 시작Incremental Update를 하기 위해 프로덕션 DB 테이블 스키마 변경updated_at과 deleted 필드 추가사용자 이벤트 로그를 프로덕션 DB에서 nginx..

[프로그래머스] 데이터 엔지니어링 데브코스 3기/숙제

[숙제 - 31일 차] 데브코스 ETL/ELT

ETL / ELT어떤 데이터 소스들을 ETL로 읽어올 것인가?ETL로 수집한 데이터를 어떻게 ELT로 요약하면 좋을까?주제내가 선정한 주제는 "실내 클라이밍 암장"이다. 최근 관심이 생긴 클라이밍 암장에 대한 데이터에 대한 ETL/TLT를 작성해보려고 한다.ETL / ELT실제로 클라이밍을 하면서 어느 시간 대에는 사람이 없고, 어느 시간대에는 사람이 많은 것을 경험하였고 이를 데이터로 표현하면 “사람이 없는 시간대에 피해서 갈 수 있지 않을까..?” 하는 바람을 담아 작성하였다. 또한 “요일 별 일일권/기간권 입장 수”를 통해서 일시적으로 사람이 많은 것인지를 확인해볼 수 있을 것이다.

기억에 남는 블로그 닉네임
'데이터 인프라' 태그의 글 목록