TIL (2024-07-29 ~ 2024-08-02)2024-07-29 (월)오늘 한 일ELT보다 웹 서비스 제작을 우선적으로 지원하여 제작하기로 결정현재 프론트 디자인은 완료되었고, Request/Response 작업은 다른 팀원 분이 진행VPC, RDS 구축이 이루어지면 RDS와 Server를 연결하는 작업 진행(RDS 구축 이후 웹 서비스 제작 이전에 S3 -> RDS 벌크 업데이트 테스트부터 해야 함)웹 제작 지원 (Frontend)메인 페이지와 보증금, 월세를 입력받는 페이지 디자인 (React)웹 제작 지원 (Server)을 위한 작성된 코드 리딩Server 쪽에서 지원할 사항은 RDS 연결과 프론트 - 백엔드 디버깅지원을 위한 django 웹 서버 코드 리딩RDS와 연결하는 방법 탐색 + ...
TIL (2024-07-22 ~ 2024-07-26)2024-07-22 (월)오늘 한 일AWS Glue + Redshift Spectrum 공부 및 사용 여부 재결정Redshift Spectrum 지원에 따라 두 서비스를 이용해서 진행하는 것으로 결정다방, 직방의 테이블이 중복으로 적재되지 않아 공간적인 이점이 있음그러나 외부 테이블을 사용하므로 비교적 시간이 오래 걸림서비스의 역할Glue : S3에 적재된 다방, 직방 데이터를 Crawler로 가져옴Redshift Spectrum : Glue에서 크롤링한 테이블을 외부 테이블로 사용해 병합 테이블 생성부동산 중개업자 데이터 수집저번 주(7/19)에 selenium으로 다운로드까지 되도록 코드 작성Lambda로 Selenium으로 사용하려고 시도했지만 실..
TIL (2024-07-15 ~ 2024-07-19)2024-07-15 (월)주제 및 나의 역할주제 : 조건 별 "원룸/투룸" 추천 웹 서비스나의 역할 : ERD 설계 및 ELT오늘 한 일간단히 만들어 본 서비스 형태생각나는 대로 작성진행한 모델링직방에서는 편의시설 정보를 따로 제공하지 않아 이에 대한 해결 방안을 찾아 스키마를 변경해야 함 (NearByFacilities)AgencyDetails 테이블은 찾은 csv 파일을 토대로 컬럼을 추가해야 함(데이터 모델링은 처음 해봐서 걱정했는데, 팀원 분들이 나쁘지 않다고 하셔서 안도의 한숨을..)고민 사항편의시설 데이터를 어떻게 채워 넣을 것인가?다방 : 크롤링을 통해 주변 편의시설의 상호명과 거리, 개수 등의 정보 추출 가능직방 : 크롤링을 통해 가장 가..
ML Pipeline과 Tuning 소개와 실습Spark ML 모델 튜닝Spark ML 모델 튜닝 (ML Tuning)최적의 하이퍼 파라미터 선택최적의 모델 혹은 모델의 파라미터를 찾는 것이 중요하나씩 테스트 vs 다수를 동시에 테스트모델 선택의 중요한 부분은 테스트 방법 (교차 검증, 홀드 아웃)보통 ML Pipeline과 같이 사용다음과 같은 입력을 바탕으로 가장 좋은 파라미터를 찾아줌Estimator : 머신러닝 모델 혹은 ML PipelineEvaluator : 머신러닝 모델의 성능을 나타내는 지표Parameter : 훈련 반복 횟수 등의 하이퍼 파라미터 (ParamGridBuilder)최종적으로 결과가 가장 좋은 모델을 반환Spark ML 머신러닝 모델 성능 측정 : Evaluatorevalua..