TIL (2024-07-22 ~ 2024-07-26)2024-07-22 (월)오늘 한 일AWS Glue + Redshift Spectrum 공부 및 사용 여부 재결정Redshift Spectrum 지원에 따라 두 서비스를 이용해서 진행하는 것으로 결정다방, 직방의 테이블이 중복으로 적재되지 않아 공간적인 이점이 있음그러나 외부 테이블을 사용하므로 비교적 시간이 오래 걸림서비스의 역할Glue : S3에 적재된 다방, 직방 데이터를 Crawler로 가져옴Redshift Spectrum : Glue에서 크롤링한 테이블을 외부 테이블로 사용해 병합 테이블 생성부동산 중개업자 데이터 수집저번 주(7/19)에 selenium으로 다운로드까지 되도록 코드 작성Lambda로 Selenium으로 사용하려고 시도했지만 실..
이번에 ICT 학점연계 인턴십으로 총 3개의 회사에 지원하였다. 그래서 10일에 코딩테스트를 응시하고, 서류 결과와 면접 일정이 나오는 것을 기다리고 있다. 12 ~ 26일 사이에 서류 결과와 면접을 진행하게 되는데, 확인할 때마다 페이지에 접속해서 확인하기가 귀찮았다. 그래서 일정 시간마다 Slack으로 인턴십 페이지의 업데이트 유무를 알려주도록 자동화를 진행해 보았다.ICT 학점연계 인턴십 결과 확인 자동화우선 간단하고 빠르게 만들려고 한 것이기 때문에 환경 변수 지정이나 예외 처리는 따로 진행하지 않았고, 기능 구현을 목표로 진행하였다.사용한 기술 및 프레임워크Server : Amazon EC2 (Ubuntu Server 24.04 LTS - Free Tier) Scraping : Python (3..
이전에 위비티 사이트를 스크래핑하고 데이터를 저장하는 작업을 진행하였다. 마지막으로 씽굿을 스크래핑하고 저장하는 작업을 진행할 것이다. [개인 프로젝트] 공모전 크롤링 (5) - 데이터 수집 (스크래핑) - 위비티이전에 모델의 url을 URLField로 수정하고, 링커리어의 데이터를 스크래핑하고 저장하는 작업을 하였다. 이번에는 다른 공모전 사이트인 위비티의 데이터를 스크래핑하고 저장하는 작업을 진행한sanseo.tistory.com변경 사항 씽굿을 추가하면서 if-elif 구문에 추가해 주었다. 또한 한글 형태가 아닌 영어로 변경하였다. 이에 따라 scraping_linkcarrer.py, scraping_wevity.py에서 함수를 호출할 때의 platform 인자가 영어로 변경되었다. save.py..
이전에 mainpage app 생성 및 로컬 페이지에서 접속 가능하도록 코드를 작성하였고, ERD를 바탕으로 models를 생성하였다. 이번에는 스크래핑을 통해 데이터 수집을 진행할 것이다. 여러 개의 사이트 중 오늘은 링커리어 스크래핑을 진행한다. [개인 프로젝트] 공모전 크롤링 (3) - mainpage (App 연동, Model 생성)이전에 가상환경과 장고 프로젝트 생성까지 완료하였다. 이번에는 mainpage App을 구축하고 ERD를 토대로 Model migraion을 진행할 것이다. [개인 프로젝트] 공모전 크롤링 (2) - 가상환경 및 초기 설정, gsanseo.tistory.com변경 사항모델 수정platform(50 -> 100)과 title(100 -> 200)의 max_length를 ..