데브코스

[프로그래머스] 데이터 엔지니어링 데브코스 3기/TIL(Today I Learn)

[TIL - 42일 차] 데이터 파이프라인과 Airflow (2)

Airflow 설치와 프로그래밍SQL 트랜잭션 이해하기중간에 실패하면 불완전 상황에 놓이는 작업이 있다면?은행 이체 과정 : 인출은 성공했지만, 송금에서 문제가 생긴다면?트랜잭션이란?Atomic하게 실행돼야 하는 SQL을 묶어 하나의 작업처럼 처리하는 방법BEGIN과 END 혹은 BEGIN과 COMMIT 사이에 해당 SQL들을 사용ROLLBACK은 BEGIN의 이전 상태로 돌아가라는 SQL 명령Transaction 구간의 SQL 결과는 임시 상태가 되며, 커밋 전에 다른 세션에서 볼 수 없음트랜잭션의 SQL을 최소화하는 것이 좋으며, 위의 경우 auto commit을 사용하는 경우트랜잭션 구현 방법 (1) - autocommitautocommit = True기본적으로 모든 SQL statement가 바로..

[프로그래머스] 데이터 엔지니어링 데브코스 3기/TIL(Today I Learn)

[TIL - 41일 차] 데이터 파이프라인과 Airflow (1)

데이터 파이프라인(ETL) 소개데이터 파이프라인(ETL) 이란?Data Pipeline = ETL = Data Workflow = DAG(Directed Acyclic Graph)ELT : Extract(데이터 다운로드), Transform(데이터 포맷 변경), Load(데이터 적재)DAG : Airflow에서 사용되는 용어 / 다수의 tack로 구성이 되고, 루프가 존재하지 않음ETL vs ELTETL 데이터를 데이터 웨어하우스 외부에서 내부로 가져오는 프로세스로 보통 데이터 엔지니어가 수행ELT데이터 웨어하우스 내부 데이터로 새로운 데이터를 만드는 프로세스로 보통 데이터 분석가가 수행데이터 레이크 위에서 작업을 수행하기도 함ELT 프로세스 전용 기술이 있으며 dbt(Data Build Tool)가 가..

[프로그래머스] 데이터 엔지니어링 데브코스 3기/TIL(Today I Learn)

[TIL - 35일 차] 데이터 웨어하우스 관리와 고급 SQL과 BI 대시보드 (5)

대시보드 소개와 구현다양한 시각화 툴 소개시각화 툴이란?대시보드 또는 BI(Business Intelligence) 툴이라고 부른다. KPI(Key Performance Indicator), 지표, 중요한 데이터 포인트를 데이터 기반으로 계산/분석/표시해 주는 툴이다. 현업 종사자들이 데이터 분석을 쉽게 할 수 있도록 해주며, 결정권자들이 데이터 기반 의사결정을 가능하게 한다.데이터 기반 결정 (Data-Driven Decision) vs 데이터 참고 결정 (Data-Informed Decision)시각화 툴Excel, Google SpreadsheetPythonLooker (구글)2012년 미국 캘리포니아 산타크루즈에서 시작하였고 구글이 2019년 6월에 $2.6B에 인수LookML이 자체 언어로 데이..

[프로그래머스] 데이터 엔지니어링 데브코스 3기/숙제

[숙제 - 33일 차] S3 -> Redshift, COPY 명령어로 데이터 적재하기 (2)

raw_data.nps 테이블을 바탕으로 월별 NPS 계산Redshift COPY 명령으로 테이블에 적재raw_data 스키마 내부에 nps 테이블 생성%%sqlCREATE TABLE raw_data.nps ( created_at timestamp, score smallint);파일 업로드 및 COPY 명령어 실행주어진 nps 파일을 S3에 업로드 후 COPY 명령어를 통해 Redshift에 벌크 업데이트를 진행한다.%%sqlCOPY raw_data.npsFROM 's3-file-path'credentials 'aws_iam_role=arn:aws:iam::~'delimiter ',' dateformat 'auto' timeformat 'auto' ignoreheader 1COPY 확인%%sq..

기억에 남는 블로그 닉네임
'데브코스' 태그의 글 목록 (11 Page)