Glue

[프로그래머스] 데이터 엔지니어링 데브코스 3기/TIL(Today I Learn)

[TIL - 2주차] 데브코스 최종 프로젝트

TIL (2024-07-22 ~ 2024-07-26)2024-07-22 (월)오늘 한 일AWS Glue + Redshift Spectrum 공부 및 사용 여부 재결정Redshift Spectrum 지원에 따라 두 서비스를 이용해서 진행하는 것으로 결정다방, 직방의 테이블이 중복으로 적재되지 않아 공간적인 이점이 있음그러나 외부 테이블을 사용하므로 비교적 시간이 오래 걸림서비스의 역할Glue : S3에 적재된 다방, 직방 데이터를 Crawler로 가져옴Redshift Spectrum : Glue에서 크롤링한 테이블을 외부 테이블로 사용해 병합 테이블 생성부동산 중개업자 데이터 수집저번 주(7/19)에 selenium으로 다운로드까지 되도록 코드 작성Lambda로 Selenium으로 사용하려고 시도했지만 실..

Infra/AWS

[AWS] AWS Glue의 개념과 구성 요소

데브코스 최종 프로젝트에서 ETL을 위해 AWS Glue를 사용하려고 한다. 그러나 개념을 아직 모르기 때문에 AWS Glue의 개념과 어떤 역할을 하는지 알아보려고 한다.AWS GlueAWS Glue 사용 예제 : 실제로 사용할 때에는 아래의 링크를 참고해서 진행[Hands On] AWS Glue Studio로 ETL 작업 (농심)[Hands On] Glue를 이용한 데이터 전처리 (교보)AWS Glue 개념과 구성 요소AWS Glue 개념완전 관리형 데이터 추출 변환 및 적재(ETL) 서비스여러 데이터 스토어 및 데이터 스트림 간에 원하는 데이터를 분류, 정리, 보강, 이동 가능AWS Glue 특징서버리스이므로 설정하거나 관리할 인프라가 없음원본/변경 데이터의 저장을 위한 별도의 저장소가 필요 없고,..

[프로그래머스] 데이터 엔지니어링 데브코스 3기/TIL(Today I Learn)

[TIL - 1주차] 데브코스 최종 프로젝트

TIL (2024-07-15 ~ 2024-07-19)2024-07-15 (월)주제 및 나의 역할주제 : 조건 별 "원룸/투룸" 추천 웹 서비스나의 역할 : ERD 설계 및 ELT오늘 한 일간단히 만들어 본 서비스 형태생각나는 대로 작성진행한 모델링직방에서는 편의시설 정보를 따로 제공하지 않아 이에 대한 해결 방안을 찾아 스키마를 변경해야 함 (NearByFacilities)AgencyDetails 테이블은 찾은 csv 파일을 토대로 컬럼을 추가해야 함(데이터 모델링은 처음 해봐서 걱정했는데, 팀원 분들이 나쁘지 않다고 하셔서 안도의 한숨을..)고민 사항편의시설 데이터를 어떻게 채워 넣을 것인가?다방 : 크롤링을 통해 주변 편의시설의 상호명과 거리, 개수 등의 정보 추출 가능직방 : 크롤링을 통해 가장 가..

기억에 남는 블로그 닉네임
'Glue' 태그의 글 목록