전체 글

데이터 엔지니어링, 자동화에 관심을 갖고 공부 중입니다.
CS/데이터베이스

[DB] 생활코딩 - 관계형 데이터 모델링

며칠 뒤 시작되는 데브코스 최종 프로젝트에서 데이터베이스 스키마를 설계하고, Analytics 테이블을 생성하는 역할을 맡게 되었다. 그런데 관계형 데이터베이스 모델링에 대한 지식이 아직 정립되지 않았기에 생활코딩의 강의를 통해 준비를 하려고 한다!관계형 데이터 모델링전체적인 흐름관계형 데이터 모델링의 순서업무파악 : 어떤 업무를 진행하는지 파악 (기획서)개념적 데이터 모델링 : 진행하는 일에 어떤 개념과 상호작용이 존재하는지 파악논리적 데이터 모델링 : 관계형 DB에 맞게 표로 전환하는 작업물리적 데이터 모델링 : DB 제품 선택 및 SQL 코드 작성업무 파악컴퓨터를 활용해 작업하려면 해당 분야의 실무자와 정확하게 소통하는 것이 중요UI (User Interface)를 사용 : 의뢰인과 서로의 생각을 ..

[프로그래머스] 데이터 엔지니어링 데브코스 3기/TIL(Today I Learn)

[TIL - 1주차] 데브코스 최종 프로젝트

TIL (2024-07-15 ~ 2024-07-19)2024-07-15 (월)주제 및 나의 역할주제 : 조건 별 "원룸/투룸" 추천 웹 서비스나의 역할 : ERD 설계 및 ELT오늘 한 일간단히 만들어 본 서비스 형태생각나는 대로 작성진행한 모델링직방에서는 편의시설 정보를 따로 제공하지 않아 이에 대한 해결 방안을 찾아 스키마를 변경해야 함 (NearByFacilities)AgencyDetails 테이블은 찾은 csv 파일을 토대로 컬럼을 추가해야 함(데이터 모델링은 처음 해봐서 걱정했는데, 팀원 분들이 나쁘지 않다고 하셔서 안도의 한숨을..)고민 사항편의시설 데이터를 어떻게 채워 넣을 것인가?다방 : 크롤링을 통해 주변 편의시설의 상호명과 거리, 개수 등의 정보 추출 가능직방 : 크롤링을 통해 가장 가..

[프로그래머스] 데이터 엔지니어링 데브코스 3기/숙제

[숙제 - 79일 차] 타이베이 주택 가격 예측 모델 만들기 with Spark ML

타이베이 주택 가격 예측 모델 만들기Colab Spark 환경 설정라이브러리 설치PySpark와 py4j 패키지 설치!pip install pyspark==3.3.1 py4j==0.10.9.5Spark Session 생성Local Standalone Spark 사용from pyspark.sql import SparkSessionspark = SparkSession \ .builder \ .appName("Taipei Housing Price Prediction") \ .getOrCreate()모델 빌딩데이터 가져오기S3에 저장된 Taipei_sindan_housing.csv를 가져옴!wget https://~/Taipei_sindan_housing.csv데이터 읽기csv 파일을 읽은 뒤 ..

[프로그래머스] 데이터 엔지니어링 데브코스 3기/TIL(Today I Learn)

[TIL - 80일 차] Spark, SparkML 실습 (5)

ML Pipeline과 Tuning 소개와 실습Spark ML 모델 튜닝Spark ML 모델 튜닝 (ML Tuning)최적의 하이퍼 파라미터 선택최적의 모델 혹은 모델의 파라미터를 찾는 것이 중요하나씩 테스트 vs 다수를 동시에 테스트모델 선택의 중요한 부분은 테스트 방법 (교차 검증, 홀드 아웃)보통 ML Pipeline과 같이 사용다음과 같은 입력을 바탕으로 가장 좋은 파라미터를 찾아줌Estimator : 머신러닝 모델 혹은 ML PipelineEvaluator : 머신러닝 모델의 성능을 나타내는 지표Parameter : 훈련 반복 횟수 등의 하이퍼 파라미터 (ParamGridBuilder)최종적으로 결과가 가장 좋은 모델을 반환Spark ML 머신러닝 모델 성능 측정 : Evaluatorevalua..

기억에 남는 블로그 닉네임
얕게, 깊게