강의평(★★★☆☆) 어휘나 맞춤법이 영어를 한국어로 번역해 작성한 것 같은 느낌이라 어색한 부분이 있음 대부분 영상이 아닌 글과 사진을 통해 진행되며, 해당 주제의 요약본을 보는 듯한 느낌 강의의 난이도는 "입문"이지만, 데이터에 무지한 사람이 본다면 이해하기가 힘들 것 같음 모든 내용을 이해한다기보다는 "이런 것들을 공부해야 하는구나!"처럼 가볍게 접근하면 좋을 것 같음 내용이 어렵고 따분하다 보니 중간에 멈추고 싶다는 생각이 많이 듦 느낀 점 파이썬을 활용한 데이터 전처리를 시작으로 확률통계, 하둡, 스파크, 쿠버네티스, 데이터 분석 등 데이터에 대한 거의 모든 내용을 담고 있는 강의였다. 강의평에 적었듯이 요약본에 가까운 느낌이었기에 공부를 하는데 크게 재미를 느끼지 못했고, 어렵다는 느낌만 크게 ..
과제 개요 데이터 탐색과 정리 데이터 시각화와 스토리텔링 기계 학습 모델 구축 교차 검증과 개선 (특징 공학과 하이퍼파라미터 최적화) 엔드-투-엔드 아키텍처와 실제 기계 학습 연구 배포 최종 과제 구글 코랩, 주피터, 제플린, 또는 d3.js를 이용 깃허브 저장소에 저장 단계 1. 관심 있는 분야와 데이터셋 선택 나는 축구에 관심이 많기에 축구 데이터를 한 번 분석해보고자 한다. Kaggle의 "FIFA 23 Players Dataset" 데이터를 활용할 것이다. 약 18000명의 축구선수에 대한 데이터로 89개의 컬럼으로 이뤄져 있다. Fifa 23 Players Dataset Official Fifa 23 Player Stats www.kaggle.com 단계 2-1. 데이터 탐색 및 데이터셋 정제 ..
데이터사이언스 발표 가이드 '데이터 발표'는 사람들이 연구를 구성 및 요약, 소통하는 방법으로 차트, 그래프, 히스토그램, 분산 차트, 다이어그램과 같이 다양한 도구를 이용한다. 데이터를 표현하는 방법은 데이터의 양, 복잡도, 청중에 따라 달라질 수 있다. 정보의 종류 어떤 데이터를 다루는지가 어떻게 표현하고 싶은지보다 중요하다. 만약 데이터가 문자열이라면 히스토그램으로는 나타내기 힘들다. 따라서 올바른 시각화 방법을 주의해서 고르는 것이 중요하다. 흔히 기술자들은 의사결정자가 이야기를 잘 들어주지 않는다고 생각한다. 정보를 설명하는데 있어 적합한 방법을 선택하지 않으면 사업가들과 데이터에 대해 명확히 소통할 수 없다. 데이터의 양 무언가를 설명할 때는 단순해야 한다. 큰 숫자를 활용하게 되면 정보를 이..
과제 안내 과제는 시각화 도구를 사용해 선택한 데이터셋에 대한 특정한 질문들을 만들고 대답하는 것이다. 모든 질문의 시작부터 끝까지 과제 수행 과정이 문서화되어야 한다. 이 과제의 목표는 탐색적인 데이터 분석을 수행하기 위해 시각화를 사용하는 과정을 더 잘 이해하는 것이다. 1) 관심 있는 데이터셋 선정 가장 관심 있는 분야의 데이터셋을 고른다. 2) 대답하고 싶은 초기 질문 선정 예를 들어, 녹는점과 원자 번호 사이에 관계가 있나요?, 별의 밝은 정도와 색깔이 서로 연관이 있나요? 등 3) 질문에 답하기 위한 데이터 적합성 평가 데이터의 원시 값을 먼저 보는 것은 도움이 되며, 데이터가 질문에 답하기에 적합한지 확인한다. 적합하지 않다면, 위의 과정을 다시 시작하는 것이 좋다. 시각적으로 분석하기 전에..