데브코스 최종 프로젝트를 진행하던 중 작성하던 코드가 1차적으로 마무리되어 Github에 올리기 위해 새로운 Branch를 생성하고, 그곳에 코드를 저장하려고 하였다. 그런데 add -> commit -> push를 진행했지만, 생성한 Branch는 초기 상태 그대로였고 main Branch에 push가 되었다.. (main Branch도 초기 상태였기에 내가 첫 push를 진행한 것) 다른 팀원 분들에게 피해가 가지 않도록 신속하게 찾아보고 수정하였다.push 되돌리기와 Branch 전환 방법설명할 명령어에 대해 간단하게 알아보자. git reset : commit 취소, 워킹 디렉터리 되돌리기git checkout : 새 Branch를 생성하고, 다른 Branch로 전환할 수 있는 명령어push 되돌..
TIL (2024-07-22 ~ 2024-07-26)2024-07-22 (월)오늘 한 일AWS Glue + Redshift Spectrum 공부 및 사용 여부 재결정Redshift Spectrum 지원에 따라 두 서비스를 이용해서 진행하는 것으로 결정다방, 직방의 테이블이 중복으로 적재되지 않아 공간적인 이점이 있음그러나 외부 테이블을 사용하므로 비교적 시간이 오래 걸림서비스의 역할Glue : S3에 적재된 다방, 직방 데이터를 Crawler로 가져옴Redshift Spectrum : Glue에서 크롤링한 테이블을 외부 테이블로 사용해 병합 테이블 생성부동산 중개업자 데이터 수집저번 주(7/19)에 selenium으로 다운로드까지 되도록 코드 작성Lambda로 Selenium으로 사용하려고 시도했지만 실..
데브코스 최종 프로젝트에서 ETL을 위해 AWS Glue를 사용하려고 한다. 그러나 개념을 아직 모르기 때문에 AWS Glue의 개념과 어떤 역할을 하는지 알아보려고 한다.AWS GlueAWS Glue 사용 예제 : 실제로 사용할 때에는 아래의 링크를 참고해서 진행[Hands On] AWS Glue Studio로 ETL 작업 (농심)[Hands On] Glue를 이용한 데이터 전처리 (교보)AWS Glue 개념과 구성 요소AWS Glue 개념완전 관리형 데이터 추출 변환 및 적재(ETL) 서비스여러 데이터 스토어 및 데이터 스트림 간에 원하는 데이터를 분류, 정리, 보강, 이동 가능AWS Glue 특징서버리스이므로 설정하거나 관리할 인프라가 없음원본/변경 데이터의 저장을 위한 별도의 저장소가 필요 없고,..
이번에 ICT 학점연계 인턴십으로 총 3개의 회사에 지원하였다. 그래서 10일에 코딩테스트를 응시하고, 서류 결과와 면접 일정이 나오는 것을 기다리고 있다. 12 ~ 26일 사이에 서류 결과와 면접을 진행하게 되는데, 확인할 때마다 페이지에 접속해서 확인하기가 귀찮았다. 그래서 일정 시간마다 Slack으로 인턴십 페이지의 업데이트 유무를 알려주도록 자동화를 진행해 보았다.ICT 학점연계 인턴십 결과 확인 자동화우선 간단하고 빠르게 만들려고 한 것이기 때문에 환경 변수 지정이나 예외 처리는 따로 진행하지 않았고, 기능 구현을 목표로 진행하였다.사용한 기술 및 프레임워크Server : Amazon EC2 (Ubuntu Server 24.04 LTS - Free Tier) Scraping : Python (3..