[AWS] AWS Glue의 개념과 구성 요소

2024. 7. 17. 15:51·Infra/AWS

데브코스 최종 프로젝트에서 ETL을 위해 AWS Glue를 사용하려고 한다. 그러나 개념을 아직 모르기 때문에 AWS Glue의 개념과 어떤 역할을 하는지 알아보려고 한다.

AWS Glue

  • AWS Glue 사용 예제 : 실제로 사용할 때에는 아래의 링크를 참고해서 진행
    • [Hands On] AWS Glue Studio로 ETL 작업 (농심)
    • [Hands On] Glue를 이용한 데이터 전처리 (교보)

AWS Glue Icon

AWS Glue 개념과 구성 요소

AWS Glue 개념

  • 완전 관리형 데이터 추출 변환 및 적재(ETL) 서비스
  • 여러 데이터 스토어 및 데이터 스트림 간에 원하는 데이터를 분류, 정리, 보강, 이동 가능

AWS Glue 특징

  • 서버리스이므로 설정하거나 관리할 인프라가 없음
  • 원본/변경 데이터의 저장을 위한 별도의 저장소가 필요 없고, 메타 데이터만으로 ETL 작업 수행
  • 정형 데이터와 더불어 반정형 데이터도 작동
  • Scheduling : 주기적인 작업 실행 자동화 가능
  • Bookmark : 작업 상태를 저장하여 중단된 시점부터 작업 재개 가능
  • Monitoring : 작업에 대한 모니터링 지원

AWS Glue 구성 요소

AWS Glue 구성 요소

  • Data Store
    • S3, RDS, Redshift, Kinesis, Kafka 등 데이터 저장 서비스나 데이터 스트림 서비스
    • 데이터를 지속적으로 저장하기 위한 저장소
  • Classifier
    • 데이터의 스키마를 결정
    • 일반적인 파일의 분류자 제공 (csv, tsv 등)
  • Crawler
    • Classifier의 우선순위 지정 목록을 통해 스키마를 결정
    • AWS Glue Data Catalog에 메타 데이터 테이블 생성
  • Data Catalog
    • Glue의 영구적 메타 데이터 스토어
    • 테이블 정의, 작업 정의 및 기타 관리 정보를 포함하여 AWS Glue 환경을 관리
  • Job
    • ETL 작업 수행에 필요한 비즈니스 로직
    • 변환 스크립트, 데이터 원본, 데이터 대상으로 구성
    • 데이터 원본 (Data Source) : 프로세스 또는 변환(Transform)의 입력(Input)이 되는 데이터 저장소
    • 데이터 대상 (Data Target) : 프로세스 또는 변환(Transform)이 쓰는(Write) 데이터 저장소
  • Connection
    • AWS의 다른 저장소나 사용자의 VPC 환경 내에 있는 DB에서 데이터 추출을 위한 장치
  • Script
    • Spark에서 사용하는 PySpark, Scala 등으로 짜인 ETL 작업 스크립트
  • Schedule or Event
    • Schedule : Job이 실행되는 주기를 설정
    • Event : 특정 이벤트로 인한 트리거로 실행

Reference

https://tech.cloud.nongshim.co.kr/2021/08/19/__trashed/

https://velog.io/@ginee_park/AWS-Glue%EB%9E%80

'Infra > AWS' 카테고리의 다른 글

[AWS] EC2 Ubuntu에서 metabase 구축  (0) 2024.11.23
[AWS] Amazon Linux 2023에서 Tableau Server 구축  (0) 2024.11.16
[AWS] Amazon VPC (Virtual Private Cloud) 개념과 구성 요소  (0) 2024.07.03
[AWS] AWS 서비스 종료 후에도 VPC 비용 발생 문제 해결  (1) 2024.05.21
[AWS] IAM 개념과 작동 방식 및 리소스  (0) 2024.05.17
'Infra/AWS' 카테고리의 다른 글
  • [AWS] EC2 Ubuntu에서 metabase 구축
  • [AWS] Amazon Linux 2023에서 Tableau Server 구축
  • [AWS] Amazon VPC (Virtual Private Cloud) 개념과 구성 요소
  • [AWS] AWS 서비스 종료 후에도 VPC 비용 발생 문제 해결
기억에 남는 블로그 닉네임
기억에 남는 블로그 닉네임
  • 기억에 남는 블로그 닉네임
    얕게, 깊게
    기억에 남는 블로그 닉네임
  • 전체
    오늘
    어제
  • 블로그 메뉴

    • 홈
    • 방명록
    • 글쓰기
    • 분류 전체보기
      • Data Engineering
        • Airflow
        • 빅데이터
        • 자동화
        • 기타
      • Infra
        • AWS
        • Terraform
        • [인프라 구축기] Terraform 활용 AWS ..
      • CS
        • 자료구조
        • 알고리즘
        • 네트워크
        • 데이터베이스
        • 이것이 취업을 위한 코딩 테스트다 with 파이썬
      • Python
      • Web
      • Git
      • 기타
        • 취업 & 진로
        • 회고록
        • 기타
      • 프로젝트 단위 공부
        • [부스트코스] DataLit : 데이터 다루기
        • [개인 프로젝트] 공모전 크롤링
        • [개인 프로젝트] FC Online 공식 경기 분..
        • 프로젝트 개선 방안
      • [프로그래머스] 데이터 엔지니어링 데브코스 3기
        • TIL(Today I Learn)
        • 숙제
        • 기타
      • 알고리즘 연습
        • 프로그래머스
        • 백준
  • 링크

    • 깃허브
    • 링크드인
  • 인기 글

  • 최근 글

  • 최근 댓글

  • hELLO· Designed By정상우.v4.10.3
기억에 남는 블로그 닉네임
[AWS] AWS Glue의 개념과 구성 요소
상단으로

티스토리툴바