과제 안내 과제는 시각화 도구를 사용해 선택한 데이터셋에 대한 특정한 질문들을 만들고 대답하는 것이다. 모든 질문의 시작부터 끝까지 과제 수행 과정이 문서화되어야 한다. 이 과제의 목표는 탐색적인 데이터 분석을 수행하기 위해 시각화를 사용하는 과정을 더 잘 이해하는 것이다. 1) 관심 있는 데이터셋 선정 가장 관심 있는 분야의 데이터셋을 고른다. 2) 대답하고 싶은 초기 질문 선정 예를 들어, 녹는점과 원자 번호 사이에 관계가 있나요?, 별의 밝은 정도와 색깔이 서로 연관이 있나요? 등 3) 질문에 답하기 위한 데이터 적합성 평가 데이터의 원시 값을 먼저 보는 것은 도움이 되며, 데이터가 질문에 답하기에 적합한지 확인한다. 적합하지 않다면, 위의 과정을 다시 시작하는 것이 좋다. 시각적으로 분석하기 전에..
소프트웨어 도구 Tableau : 웹에 게시할 수 있는 인터랙티브 차트와 대시보드를 포함하지만, 출력용 차트에는 덜 유용하다. 구글 문서를 이용한 기본 데이터 시각화 : UC 버클리 언론 대학원의 첨단 미디어 연구소에서 만든 튜토리얼이다. Microsoft Excel 라이브러리(github) plotly.py : 브라우저 기반의 도구로 인터랙티브 차트 타입과 대시보드 생성하며 python, matlab, R 등 사용 가능하다. D3.js : 데이터 기반 문서를 제작하는 js 라이브러리이다. HTML, SVG, CSS을 활용하여 시각화하는 데 도움을 준다. 기타 Stata Chart.js : HTML5 기반의 자바스크립트 차트, 인터랙티브 데이터 시각화를 만드는 데 사용한다. RAW Graphs : 계층을..
차원 축소 최근 데이터가 급격히 증가하면서 수많은 변수/차원을 얻게 되었다. 이는 원치 않은 차원 증가 문제이고, 차원 축소 처리가 필요하다. 변수가 많을수록 더 많은 문제가 일어날 수 있다. 이러한 문제를 해결하기 위해 차원 축소 기법이 등장하였다. 통계학, 머신러닝, 정보 이론에서 차원 축소란 주성분 집합을 구해서 확률 변수의 개수를 줄이는 과정을 의미한다. 차원 축소는 특징 선택과 특칭 추출 단계로 나뉜다. 위 그림은 2차원 데이터 x1, x2를 어떤 물체를 센티미터 단위로 측정한 값과 인치 단위로 축정한 값이라고 하자. 기계학습에서 두 차원을 모두 사용하면 비슷한 정보를 전달하게 되고, 시스템에 많은 노이즈를 일으킨다. 따라서 하나의 차원만 사용하는 것이 적절하다. 이처럼 n 차원의 데이터를 k (k
데이터 시각화하기 데이터 시각화는 정보와 데이터의 그래픽적인 표현이다.이는 많은 양의 정보를 분석하고 데이터 기반의 결정을 내리는 데 필수적이다. 데이터 시각화는 차트, 그래프, 맵처럼 시각적 요소를 사용하여 데이터의 트렌드, 이상치, 패턴을 알아차리고 이해하는 쉬운 방법을 제공한다. 종류로는 선 그래프, 산점도, 박스 그래프, 파이 차트 등이 있다. 시각화 작업 1) 시작 전 고려사항 변수(문자열/범주형/숫자형)와 데이터의 크기에 대해 생각한다. 시각화를 통해 답하려는 질문에 대해 생각한다. 데이터를 누가 볼 것인지와 디자인을 통해 데이터 묘사를 어떻게 최적화할 지 생각한다. 2) 기본적인 시각화 규칙 적절한 그래프 타입 선택 축에 라벨 붙이기 그래프에 제목 붙이기 서로 다른 범주들에 라벨 붙이기 흥미..