전체 글

데이터 엔지니어링, 자동화에 관심을 갖고 공부 중입니다.
기타/회고록

[회고] 개인 프로젝트 - FC Online 공식 경기 분석 (24.05.25 ~ 24.06.05)

프로젝트 설명 및 회고프로젝트 소개깃허브 링크 GitHub - ss721229/FC-Online-Match-DashboardContribute to ss721229/FC-Online-Match-Dashboard development by creating an account on GitHub.github.com진행 기간2024.05.25 ~ 2024.06.05 (11일)프로젝트 진행 과정 (링크)주제FC Online 공식 경기 매치 상세 기록 분석 대시보드프로젝트 인원 구성개인 프로젝트활용 기술 및 프레임워크Crawling : requests (2.25.1)Data-Processing : pandas (2.2.2), boto3 (1.34.117), snowflake-connector (3.10.1)프로젝트..

[프로그래머스] 데이터 엔지니어링 데브코스 3기/TIL(Today I Learn)

[TIL - 55일 차] Airflow 고급기능과 DBT, 데이터 디스커버리 (5-2)

데이터 카탈로그 소개데이터 카탈로그 기능 정의데이터 카탈로그데이터 자산 메타 정보 중앙 저장소 / 데이터 자산의 효율적인 관리 프레임워크많은 회사에서 데이터 카탈로그를 데이터 거버넌스 툴로 사용하거나 데이터 카탈로그 위에 커스텀 기능을 구현다양한 관점에서 데이터를 조직적으로 관리비즈니스 / 데이터 용어 vs 태그태그 : 더 비공식적인 데이터 분류 방법비즈니스 용어 : 계층 구조 형태의 분류 체계를 따라감데이터 오너 (Business & Technical)표준화된 문서 템플릿데이터 카탈로그의 중요한 기능(반)자동화 된 메타 데이터 수집메타 데이터만 읽어오는 형태 : 실제 데이터 노출로 인한 보안 이슈 감소데이터 자산의 종류테이블 (데이터베이스)대시보드문서 / 메시지 (Slack, JIRA, Github 등..

[프로그래머스] 데이터 엔지니어링 데브코스 3기/TIL(Today I Learn)

[TIL - 55일 차] Airflow 고급기능과 DBT, 데이터 디스커버리 (5-1)

DBT (Data Build Tool)DBT SeedsDBT SeedsDimension 테이블을 csv 파일 형태로 DW로 로드하는 방법Dimension 테이블은 크기가 작고 많이 변하지 않음dbt seed를 실행해서 빌드DBT Seeds 실습learn_dbt/seeds 디렉터리에 reference_date.csv 파일 생성dbt seed 실행dbt seedDBT SourcesStaging 테이블을 만들 때 입력 테이블이 자주 바뀌면, models의 .sql 파일을 일일이 바꿔야 함이 번거로움을 Sources를 활용해 입력 테이블에 별칭을 주고 별칭을 staging 테이블에서 사용Sources처음 입력이 되는 ETL 테이블을 대상으로 함별칭 제공최신 레코드 체크 기능 제공테이블 이름에 별명(alias)을..

Data Engineering/기타

[dbt] materialized type을 변경하는 두 가지 방법

materialized type 변경model의 matrerializad type에는 View, Table, CTE 등이 존재View : SELECT 결과를 기반으로 만들어진 가상테이블CTE : WITH - AS와 같이 사용된 뒤 사라지는 테이블Table : 실제 물리적인 테이블 "models/analytics/analytics_variant_user_daily.sql"을 예시로 type을 변경하는 작업 진행dbt_projct.yml을 수정해서 변경 analytics_variant_user_daily.sql을 수정해서 변경초기 상태dbt_project.ymldbt 프로젝트 이름은 learn_dbtdim 디렉터리 내부의 .sql은 table로 생성src 디렉터리 내부의 .sql은 ephemeral(CTE)..

기억에 남는 블로그 닉네임
얕게, 깊게