Redshift 고급 기능 실습Redshift 권한과 보안사용자별로 권한을 설정하면 복잡하고 실수의 가능성이 높기 때문에 일반적으로 사용자별, 테이블별 권한은 설정하지 않는다. 따라서 역할(Role) 혹은 그룹(Group) 별, 스키마별로 권한을 주는 것이 일반적이다. 개인정보와 연관된 테이블이라면 일부 사람만 접근할 수 있도록 별도 스키마를 설정한다.사용자별 테이블 권한 설정그룹(Group) vs 역할(Role) : 그룹은 계승이 안되며, 역할은 계승이 됨RBAC(Role Based Access Control)가 그룹보다 편리 -> 새로운 트랜드아래 예제는 GROUP으로 진행하였지만, 키워드를 ROLE로 바꾸어도 동작한다.사용자 그룹 권한 설정사용자 그룹 권한 설정 - analytics_authors테..
Redshift 소개Redshift 특징Redshift 특징 (1)AWS에서 지원하는 데이터 웨어하우스 서비스2 PB의 데이터까지 처리 가능Still OLAP : 응답 속도보다 처리 용량에 최적화되어 있음컬럼 기반 스토리지 : 레코드 별로 저장하는 것이 아니라 컬럼 별로 저장하며, 컬럼 별 압축 가능Redshift 특징 (2)벌크 업데이트 지원 : 레코드가 들어있는 파일을 S3에 복사 후 COPY 커맨드로 Redshift로 일괄 복사 (BigQuery, Snowflake 등 다른 것도 동일)고정 용량/비용 SQL 엔진 : 최근 가변 옵션도 제공 (Redshift Serverless)데이터 공유 기능 (Datashare) : 다른 AWS 계정과 특정 데이터 공유 가능PK uniqueness를 보장하지 않음..
SELECT 배우기 예제 테이블 소개 웹서비스 사용자/세션 정보 세션이란 사용자의 방문을 논리적인 단위로 나눈 것이다. 하나의 사용자는 여러 개의 세션을 가질 수 있으며, 보통 세션을 만들어낸 접점(경유지)을 채널이란 이름으로 기록해 두어 마케팅 관련 기여도 분석에 활용한다. 사용자 ID : 보통 웹 서비스에서 등록된 사용자마다 부여하는 유일한 ID 세션 ID : 세션마다 부여되는 ID 이 정보를 기반으로 다양한 데이터 분석과 지표 설정이 가능하다. 일주월별로 Unique User의 수를 사용자 ID를 통해 카운트하여 Active User를 확인할 수 있다. 예를 들어 WAU의 경우, 일주일 내에 여러 번 방문을 한 User를 1로 계산하여 Active User를 카운트한다. 마케팅 관련, 사용자 트래픽..
SQL과 데이터베이스 소개 SQL의 중요성 데이터 요약과 데이터 분석을 위해 SQL은 모든 데이터 직군에게 필수적으로 요구되는 역량이다. 데이터 관련 3개의 직군 데이터 엔지니어 : 파이썬, 자바/스칼라, SQL, 데이터베이스, ETL/ELT(Ariflow, DBT), Spark, Hadoop 데이터 분석가 : SQL, 비즈니스 도메인 지식, 통계(AB 테스트 분석) 데이터 과학자 : 머신러닝, SQL, 파이썬, 통계 관계형 데이터베이스란? 구조화된 데이터를 저장하고 질의할 수 있도록 해주는 스토리지이다. 엑셀 스프레드시트 형태의 테이블(행/열)로 데이터를 정의하고 저장한다. 이러한 관계형 데이터베이스를 조작하는 프로그래밍 언어가 SQL이며, 언어 형태는 다음과 같다. 테이블 정의를 위한 DDL(Data..