빅데이터 처리와 Spark 소개빅데이터와 대용량 분산 시스템빅데이터 정의서버 한대로 처리할 수 없는 규모의 데이터기존의 소프트웨어로는 처리할 수 없는 규모의 데이터4VVolume : 데이터의 크기Velocity : 데이터의 처리 속도Variaty : 구조화 / 비구조화 데이터Veracity : 데이터의 품질빅데이터의 예디바이스 데이터 : 모바일, 스마트 TV, 각종 센서 (IoT) 데이터, 네트워킹 디바이스 등웹수십 조개 이상의 웹 페이지 존재 -> 지식의 바다웹 검색엔진 개발은 진정한 대용량 데이터 처리사용자 검색어와 클릭 정보 자체도 대용량요즘 웹 개발 자체가 NLP 거대 모델 개발의 훈련 데이터로 사용빅데이터 처리의 특징과 해결방안스토리지큰 데이터를 손실 없이 보관할 방법이 필요큰 데이터 저장이 가..
데이터 카탈로그 소개데이터 카탈로그 기능 정의데이터 카탈로그데이터 자산 메타 정보 중앙 저장소 / 데이터 자산의 효율적인 관리 프레임워크많은 회사에서 데이터 카탈로그를 데이터 거버넌스 툴로 사용하거나 데이터 카탈로그 위에 커스텀 기능을 구현다양한 관점에서 데이터를 조직적으로 관리비즈니스 / 데이터 용어 vs 태그태그 : 더 비공식적인 데이터 분류 방법비즈니스 용어 : 계층 구조 형태의 분류 체계를 따라감데이터 오너 (Business & Technical)표준화된 문서 템플릿데이터 카탈로그의 중요한 기능(반)자동화 된 메타 데이터 수집메타 데이터만 읽어오는 형태 : 실제 데이터 노출로 인한 보안 이슈 감소데이터 자산의 종류테이블 (데이터베이스)대시보드문서 / 메시지 (Slack, JIRA, Github 등..
DBT (Data Build Tool)DBT SeedsDBT SeedsDimension 테이블을 csv 파일 형태로 DW로 로드하는 방법Dimension 테이블은 크기가 작고 많이 변하지 않음dbt seed를 실행해서 빌드DBT Seeds 실습learn_dbt/seeds 디렉터리에 reference_date.csv 파일 생성dbt seed 실행dbt seedDBT SourcesStaging 테이블을 만들 때 입력 테이블이 자주 바뀌면, models의 .sql 파일을 일일이 바꿔야 함이 번거로움을 Sources를 활용해 입력 테이블에 별칭을 주고 별칭을 staging 테이블에서 사용Sources처음 입력이 되는 ETL 테이블을 대상으로 함별칭 제공최신 레코드 체크 기능 제공테이블 이름에 별명(alias)을..
Airflow 운영과 대안프로덕션 사용을 위한 Airflow 환경 설정airflow.cfg 경로 : /var/lib/airflow/airflow.cfgcore 섹션의 dags_folder가 DAG들이 있는 디렉터리가 되어야 함 (/var/lib/airflow/dags)dag_dir_list_interval : dags_folder를 Airflow가 얼마나 자주 스캔하는지 명시 (초 단위)Airflow Database기본적으로 세팅되는 Sqlite는 테스트로도 사용 불가보통 Postgres or MySQL을 사용DB 변경 시 core 섹션의 sql_alchemy_conn 설정 필요SequentialExecutor 사용 XSqlite일 경우에만 SequentialExecutor가 의미가 있음다른 DB를 사용..