데이터사이언스 발표 가이드
'데이터 발표'는 사람들이 연구를 구성 및 요약, 소통하는 방법으로 차트, 그래프, 히스토그램, 분산 차트, 다이어그램과 같이 다양한 도구를 이용한다. 데이터를 표현하는 방법은 데이터의 양, 복잡도, 청중에 따라 달라질 수 있다.
정보의 종류
어떤 데이터를 다루는지가 어떻게 표현하고 싶은지보다 중요하다. 만약 데이터가 문자열이라면 히스토그램으로는 나타내기 힘들다. 따라서 올바른 시각화 방법을 주의해서 고르는 것이 중요하다. 흔히 기술자들은 의사결정자가 이야기를 잘 들어주지 않는다고 생각한다. 정보를 설명하는데 있어 적합한 방법을 선택하지 않으면 사업가들과 데이터에 대해 명확히 소통할 수 없다.
데이터의 양
무언가를 설명할 때는 단순해야 한다. 큰 숫자를 활용하게 되면 정보를 이해하는데 시간이 오래 걸려 발표의 흐름을 방해할 수 있다. 수학적 데이터를 숫자 없이 발표하는 것은 어렵고, 숫자를 친근하게 느끼게 하는 것도 어렵다. 쉼표와 약어와 같이 적절한 형식을 활용해야 한다. 예를 들어 100,000을 100k로 표현하거나 수치를 반올림하여 소수를 피하는 방법이 있다.
데이터의 복잡도
데이터를 설명할 수 있는 시각화 형태를 골라야 한다. 3차원 그래프는 혼란을 주기 때문에 사용하지 않는게 좋다. 만약 3차원 시각화가 영상 자료에서 중요하다면 적절히 사용해야 한다. 또한 데이터를 명확히 표현하기 위해 차트의 종류를 고를 때 주의해야 한다.
참고 링크
DataLit : 데이터 다루기
'프로젝트 단위 공부 > [부스트코스] DataLit : 데이터 다루기' 카테고리의 다른 글
Ch3-4. 데이터 스토리텔링 파트 2 (2) | 2024.03.18 |
---|---|
Ch3-3. 데이터 스토리텔링 파트 1 (0) | 2024.03.17 |
Ch2-과제. 파이스파크 (0) | 2024.03.15 |
Ch2-4. 쿠버네티스 (0) | 2024.02.24 |
Ch2-3. PySpark (0) | 2023.08.01 |