데이터 카탈로그 소개
데이터 카탈로그 기능 정의
데이터 카탈로그
- 데이터 자산 메타 정보 중앙 저장소 / 데이터 자산의 효율적인 관리 프레임워크
- 많은 회사에서 데이터 카탈로그를 데이터 거버넌스 툴로 사용하거나 데이터 카탈로그 위에 커스텀 기능을 구현
- 다양한 관점에서 데이터를 조직적으로 관리
- 비즈니스 / 데이터 용어 vs 태그
- 태그 : 더 비공식적인 데이터 분류 방법
- 비즈니스 용어 : 계층 구조 형태의 분류 체계를 따라감
- 데이터 오너 (Business & Technical)
- 표준화된 문서 템플릿
- 데이터 카탈로그의 중요한 기능
- (반)자동화 된 메타 데이터 수집
- 메타 데이터만 읽어오는 형태 : 실제 데이터 노출로 인한 보안 이슈 감소
데이터 자산의 종류
- 테이블 (데이터베이스)
- 대시보드
- 문서 / 메시지 (Slack, JIRA, Github 등)
- ML 피쳐
- 데이터 파이프라인
- 사용자 (HR 시스템)
데이터 카탈로그의 주요 기능
- 주요 데이터 플랫폼 지원 (DW, RDB, DL, 대시보드 등)
- Data Warehouses & Data Lakes : Redshift, Snowflake, BigQuery
- BI Tools : Looker, Tableau, Redash, Power BI, Mode, Superset
- ELT : DBT, Spark, Hive, PrestoDB
- ELT Orchestration : Airflow
- NoSQL and Others : Cassandra, Druid, Elastic Search, Kafka Schema Registry, CSV
- Users : Azure AD, LDAP 등
- 비즈니스 용어집 (Business Glossary)
- 권한이 있는 사람만 용어 정의 가능
- 계층 구조로 관리할 수 있다면 더 유용 (DataHub의 경우 terms와 terms group 존재)
- 주석 / 문서 / 태그 등 협업 기능
- 데이터 리니지
- Dataset to dataset : 보통 SQL 파싱으로 확인
- Pipeline : 입력 데이터셋 -> Data Pipeline -> 출력 데이터셋
- Dashboard to chart : 하나의 차트가 여러 대시보드에 소속 가능하기에 필요
- Chart to dataset
- Job to dataflow
- 데이터 모니터링, 감사, 트레이싱
- 강력한 검색 기능 (통합 검색, NLP 검색)
- 데이터 추천 기능
- 데이터 유저 퍼소나 (마케팅 분석가)
데이터 거버넌스 관점에서 데이터 카탈로그의 중요성
- 우리가 갖고 있는 데이터 자산에 대한 통합 뷰 제공
- 생산성 증대 : 설문이나 데이터 티켓의 감소
- 티켓 : 개발자에게 보내는 의뢰서
- 위험 감소 : 잘못된 결정과 개인정보 등의 전파 방지
- 인프라 비용 감소 : 불필요한 정보 생성 방지와 안 쓰이는 데이터셋 삭제
- 데이터 티켓 감소
- 데이터 변경으로 인한 이슈 감소 : 컬럼 레벨 리니지와 CI/CD 프로세스 연동
데이터 카탈로그 제품
데이터 카탈로그 툴
- 상용 제품 : Alation, Collibra, Atlan, Select Star, Great Expectations
- 오픈소스 : Amundsen, DataHub, AcryIData
- 클라우드 : AWS Glue Data Catalog, Google Cloud Data Catalog, Microsoft Azure Data Catalog
- 자체 툴 : DataBook (Uber), DataPortal (Airbnb)
'[프로그래머스] 데이터 엔지니어링 데브코스 3기 > TIL(Today I Learn)' 카테고리의 다른 글
[TIL - 62일 차] 하둡과 Spark (2) (0) | 2024.06.18 |
---|---|
[TIL - 61일 차] 하둡과 Spark (1) (0) | 2024.06.17 |
[TIL - 55일 차] Airflow 고급기능과 DBT, 데이터 디스커버리 (5-1) (2) | 2024.06.07 |
[TIL - 54일 차] Airflow 고급기능과 DBT, 데이터 디스커버리 (4) (2) | 2024.06.06 |
[TIL - 53일 차] Airflow 고급기능과 DBT, 데이터 디스커버리 (3) (0) | 2024.06.05 |