소프트웨어 도구 Tableau : 웹에 게시할 수 있는 인터랙티브 차트와 대시보드를 포함하지만, 출력용 차트에는 덜 유용하다. 구글 문서를 이용한 기본 데이터 시각화 : UC 버클리 언론 대학원의 첨단 미디어 연구소에서 만든 튜토리얼이다. Microsoft Excel 라이브러리(github) plotly.py : 브라우저 기반의 도구로 인터랙티브 차트 타입과 대시보드 생성하며 python, matlab, R 등 사용 가능하다. D3.js : 데이터 기반 문서를 제작하는 js 라이브러리이다. HTML, SVG, CSS을 활용하여 시각화하는 데 도움을 준다. 기타 Stata Chart.js : HTML5 기반의 자바스크립트 차트, 인터랙티브 데이터 시각화를 만드는 데 사용한다. RAW Graphs : 계층을..
차원 축소 최근 데이터가 급격히 증가하면서 수많은 변수/차원을 얻게 되었다. 이는 원치 않은 차원 증가 문제이고, 차원 축소 처리가 필요하다. 변수가 많을수록 더 많은 문제가 일어날 수 있다. 이러한 문제를 해결하기 위해 차원 축소 기법이 등장하였다. 통계학, 머신러닝, 정보 이론에서 차원 축소란 주성분 집합을 구해서 확률 변수의 개수를 줄이는 과정을 의미한다. 차원 축소는 특징 선택과 특칭 추출 단계로 나뉜다. 위 그림은 2차원 데이터 x1, x2를 어떤 물체를 센티미터 단위로 측정한 값과 인치 단위로 축정한 값이라고 하자. 기계학습에서 두 차원을 모두 사용하면 비슷한 정보를 전달하게 되고, 시스템에 많은 노이즈를 일으킨다. 따라서 하나의 차원만 사용하는 것이 적절하다. 이처럼 n 차원의 데이터를 k (k
데이터 시각화하기 데이터 시각화는 정보와 데이터의 그래픽적인 표현이다.이는 많은 양의 정보를 분석하고 데이터 기반의 결정을 내리는 데 필수적이다. 데이터 시각화는 차트, 그래프, 맵처럼 시각적 요소를 사용하여 데이터의 트렌드, 이상치, 패턴을 알아차리고 이해하는 쉬운 방법을 제공한다. 종류로는 선 그래프, 산점도, 박스 그래프, 파이 차트 등이 있다. 시각화 작업 1) 시작 전 고려사항 변수(문자열/범주형/숫자형)와 데이터의 크기에 대해 생각한다. 시각화를 통해 답하려는 질문에 대해 생각한다. 데이터를 누가 볼 것인지와 디자인을 통해 데이터 묘사를 어떻게 최적화할 지 생각한다. 2) 기본적인 시각화 규칙 적절한 그래프 타입 선택 축에 라벨 붙이기 그래프에 제목 붙이기 서로 다른 범주들에 라벨 붙이기 흥미..
확률 변수 확률과 통계학에서 확률 변수(random variable)는 모두 가능한 값이 랜덤 현상의 결과인 변수를 말한다. 확률 변수는 이산적이거나 연속적인데, 이산적이라는 의미는 확률 변수의 확률 분포가 확률 질량 함수 특성을 가지고 있어 유한 개 혹은 셀 수 있는 수의 들 중에서 하나를 취할 수 있다는 뜻이다. 연속적이라는 의미는 확률 변수의 확률 분포가 확률 밀도 함수 특성을 가지고 있어 구간이나 구간 집합에서 임의의 값을 취할 수 있다는 뜻이다. 이산 확률 분포 확률 변수는 예측할 수 없는 확률 과정의 결과를 수량, 특히 실수와 매핑하는 함수로 정의한다. 확률 변수는 함수의 입력값으로 들어가는 기저 확률 과정의 결과에 의존한다는 점에서(특히, 종속 변수)이며, 기저 확률 과정이 확률적이라는 점에..