데이터 시각화하기
데이터 시각화는 정보와 데이터의 그래픽적인 표현이다.이는 많은 양의 정보를 분석하고 데이터 기반의 결정을 내리는 데 필수적이다.
데이터 시각화는 차트, 그래프, 맵처럼 시각적 요소를 사용하여 데이터의 트렌드, 이상치, 패턴을 알아차리고 이해하는 쉬운 방법을 제공한다. 종류로는 선 그래프, 산점도, 박스 그래프, 파이 차트 등이 있다.
시각화 작업
1) 시작 전 고려사항
- 변수(문자열/범주형/숫자형)와 데이터의 크기에 대해 생각한다.
- 시각화를 통해 답하려는 질문에 대해 생각한다.
- 데이터를 누가 볼 것인지와 디자인을 통해 데이터 묘사를 어떻게 최적화할 지 생각한다.
2) 기본적인 시각화 규칙
- 적절한 그래프 타입 선택
- 축에 라벨 붙이기
- 그래프에 제목 붙이기
- 서로 다른 범주들에 라벨 붙이기
- 흥미로운 데이터에 텍스트나 화살표를 선택적으로 추가
- 데이터에 크기나 색을 활용
3) 시각화 타입 선택
막대 그래프
세부사항
- 직관적이고 인식하기가 가장 쉽다.
- 가장 간단한 타입: 하나의 문자열과 하나의 숫자형 변수
- 정확한 값을 보여주기에 좋다.
고려할 점
- 라벨을 많이 사용하거나 잘못된 라벨을 사용할 경우 읽기 어려워진다.
- 차트의 축 숫자는 0부터 시작하는 것이 가장 좋다.
- 막대의 순서: 알파벳, 숫자 등
파이 차트
세부사항
- 총량이 변수 중 하나이고, 그 변수들의 구성을 보여주고 싶을 때 사용한다.
- 하나의 문자열과 하나의 숫자 변수의 쌍으로 가장 많이 사용된다.
- 부분-전체 관계를 보여준다.
고려할 점
- 더 많은 변수를 가질수록 읽기 어려워진다.
- 영역으로 나타내면 눈으로 파악하기 힘들다.
- 조각이 비슷한 크기라면 다른 시각화가 더 좋다.
- 3D 형태는 지양해야 한다.
선 그래프
세부사항
- 시간에 따라 변하는 것을 보여줄 때 탁월하다.
- 연속성을 보여줄 수 있다.
고려할 점
- 너무 많은 선이 있으면 이해하기 어렵다.
- 각각의 선에 다른 색깔을 적용하면 읽는 시간이 오래 걸린다.
- 데이터 점이 어디 있는지 알기 어려울 수 있다.
- 데이터 왜곡을 막기 위해 y축은 0에서 시작하는 것이 가장 좋다.
산점도
세부사항
- 두 숫자 변수 사이의 정밀하고 데이터 밀도가 높은 시각화, 상관관계, 군집을 보여주는 데 유용하다.
고려할 점
- 대부분의 사람들이 읽기 어렵기 때문에 일반적으로 사용되지 않는다.
- 점이 서로를 가리기 때문에 큰 데이터셋에서는 효과적이지 않다.
거품형 차트
세부사항
- 산점도의 변형
- 각각의 점이 다른 크기를 가지고 있고, 추가적인 변수를 나타낸다.
고려할 점
- 원의 영역을 눈으로 해석하기 어렵다.
4) 디자인 선택
색깔
- 데이터에 대한 정보를 알리기 위해 필요할 때만 색깔을 사용한다.
- 데이터(범주형, 발산형, 연속형)에 맞는 색깔 조합을 선택한다.
- 범주형 데이터는 많은 색을 사용하는 것을 지양한다.
- 연속형 데이터는 무지개 색깔보다는 하얀색부터 채도가 높은 색을 사용한다.
- 시각화의 형식(프로젝터, 프린트, 흑백)을 고려한다.
- 청중의 잠재적인 색약 여부에 대해 유의한다.
- 색약인 사람도 볼 수 있는 색상 조합을 고르거나 테스트하는 도구들이 존재한다.
스케일
- 연속적인 시리즈를 포함하는 데이터를 그래프로 그릴 때는 일정한 스케일 분할을 사용한다.
- 특정 기간으로 데이터를 그룹화할 때, 그 기간은 동일해야 한다.
- 왼쪽의 히스토그램은 동일하지 않은 분할을 갖고 있고, 오른쪽은 동일한 분할을 갖고 있다.
축
- 수직 축은 0에서 시작해야 데이터의 의미를 오해하지 않을 수 있다.
- 이 그래프의 가파른 감소는 실제로 5% 정도의 변화를 나타낸다.
- 변화가 커 보이는 이유는 수직 축이 2000에서 시작하기 때문이다.
라벨
- 대문자를 사용하지 말자.
- 일반저인 포맷에서 잘 읽힐만큼 큰 글자 크기를 사용한다.
- 명확한 언어를 사용하고 제목, 범례, 라벨에서 약어의 사용을 피한다.
- 하나의 데이터 범주만 있다면, 범례를 붙일 필요가 없다.
종횡비
- 사각형의 너비와 높이의 비율을 종횡비라고 한다.
- 종횡비를 고려하고, 페이지에 맞는지 뿐만 아니라 데이터에 적합한 값을 생각한다.
경사
- 같은 데이터여도 오른쪽이 더 읽기 편하다.
- Banking to 45 degrees : 평균 경사가 45도이면 선 차트가 더 읽기 좋다는 이론
- 45도로 맞추는 것은 특별한 이유가 없는 한 좋은 선택이다.
정규화
- 아래 막대 차트는 정규화된 데이터와 정규화 되지 않은 데이터를 보여준다.
- 파란색 막대는 교육의 전체 소비량(정규화X), 빨간색 막대는 학생 당 소비량(정규화O)을 보여준다.
- 인구가 많은 것을 고려하지 않으면 내용이 완전 달라진다.
스택 영역
- 해석하기 어렵다.
- 노란색 박스 안에 보라색 영역은 감소하고 있지만 증가하는 것처럼 보인다.
- 명확하고 눈에 쉽게 보이는 트렌드가 있지 않은 한 사용을 피한다.
참고 링크
DataLit : 데이터 다루기
https://www.boostcourse.org/ds103/joinLectures/84465
차트에서 할 것과 하지 않을 것
https://www.eea.europa.eu/data-and-maps/daviz/learn-more/chart-dos-and-donts
Banking to 45 degrees
'프로젝트 단위 공부 > [부스트코스] DataLit : 데이터 다루기' 카테고리의 다른 글
Ch1-12. 데이터 시각화 도구 (0) | 2023.07.24 |
---|---|
Ch1-11. 차원 축소 (0) | 2023.07.24 |
Ch1-7. 확률 변수 (0) | 2023.07.20 |
Ch1-6. 이산 확률 (0) | 2023.07.20 |
Ch1-3. 텍스트 데이터 정제 (0) | 2023.07.17 |