데이터 파이프라인(ETL) 소개데이터 파이프라인(ETL) 이란?Data Pipeline = ETL = Data Workflow = DAG(Directed Acyclic Graph)ELT : Extract(데이터 다운로드), Transform(데이터 포맷 변경), Load(데이터 적재)DAG : Airflow에서 사용되는 용어 / 다수의 tack로 구성이 되고, 루프가 존재하지 않음ETL vs ELTETL 데이터를 데이터 웨어하우스 외부에서 내부로 가져오는 프로세스로 보통 데이터 엔지니어가 수행ELT데이터 웨어하우스 내부 데이터로 새로운 데이터를 만드는 프로세스로 보통 데이터 분석가가 수행데이터 레이크 위에서 작업을 수행하기도 함ELT 프로세스 전용 기술이 있으며 dbt(Data Build Tool)가 가..
Amazon RedshiftAmazon Reshift란?Redshift는 AWS에서 지원하는 완전 관리형 데이터 웨어하우스 서비스이다. PostgreSQL 기반으로 대규모 병렬 처리, 데이터 압축을 통해 효율적인 데이터 저장 및 최적의 쿼리 성능을 가져올 수 있다. 응답 속도보다 처리 용량에 최적화(OLAP)되어 있어 빠른 시간에 응답해야 한다면 사용하기 힘들다. 최근에는 Serverless로 가변 비용 서비스가 만들어졌다.OLAP(데이터 웨어하우스, ex - Redshift) vs OLTP(프로덕션 데이터베이스, ex - RDS)고정 비용(ex - Redshift) vs 가변 비용(ex - Snowflake, BigQuery)클러스터클러스터는 리더 노드와 하나 이상의 컴퓨팅 노드로 구성되어 있다.리더 ..
Redshift 고급 기능 실습Redshift 권한과 보안사용자별로 권한을 설정하면 복잡하고 실수의 가능성이 높기 때문에 일반적으로 사용자별, 테이블별 권한은 설정하지 않는다. 따라서 역할(Role) 혹은 그룹(Group) 별, 스키마별로 권한을 주는 것이 일반적이다. 개인정보와 연관된 테이블이라면 일부 사람만 접근할 수 있도록 별도 스키마를 설정한다.사용자별 테이블 권한 설정그룹(Group) vs 역할(Role) : 그룹은 계승이 안되며, 역할은 계승이 됨RBAC(Role Based Access Control)가 그룹보다 편리 -> 새로운 트랜드아래 예제는 GROUP으로 진행하였지만, 키워드를 ROLE로 바꾸어도 동작한다.사용자 그룹 권한 설정사용자 그룹 권한 설정 - analytics_authors테..
Redshift 소개Redshift 특징Redshift 특징 (1)AWS에서 지원하는 데이터 웨어하우스 서비스2 PB의 데이터까지 처리 가능Still OLAP : 응답 속도보다 처리 용량에 최적화되어 있음컬럼 기반 스토리지 : 레코드 별로 저장하는 것이 아니라 컬럼 별로 저장하며, 컬럼 별 압축 가능Redshift 특징 (2)벌크 업데이트 지원 : 레코드가 들어있는 파일을 S3에 복사 후 COPY 커맨드로 Redshift로 일괄 복사 (BigQuery, Snowflake 등 다른 것도 동일)고정 용량/비용 SQL 엔진 : 최근 가변 옵션도 제공 (Redshift Serverless)데이터 공유 기능 (Datashare) : 다른 AWS 계정과 특정 데이터 공유 가능PK uniqueness를 보장하지 않음..