※ 이 포스팅은 저자 'Kirthi Raman'의 도서 <Mastering Python Data Visualization> 을 공부하며 정리한 글입니다. 



Chapter 02. Data Analysis and Visualization (데이터 분석과 시각화)


Storytelling 방식의 데이터 시각화


#. 데이터를 이용해 즐거운 이야기를 만들자

- 올바른 방법으로 표현된 데이터는 이해하고 기억하기 쉽기 때문이다

- 좋은 시각화를 만들기 위해 첫 번째로 해야 할 가장 중요한 일은 '최종 목표'를 명확히 설정하는 것이다.


#. 시각화는 독자의 입장에서

- 단지 저자(데이터를 시각화하는 주체)의 입장에서 데이터를 시각화하면, 그 의의가 저자에 의해 결정되어 단순 정보 전달에 그칠 수 있다.

- 그러나 독자 중심으로 생각하면, 독자와 저자는 상호 교류하며 서로가 데이터를 유연하게 고르고, 분석하고, 시각화된 데이터를 이해할 수 있게 된다.


#. 매력적인 스토리텔러가 되어야

- Storyteller들은 대화에 있어 독자에 대한 이해가 중요하다는 것을 명확히 알고 있다.

- 데이터의 스토리라인 또한 청중에 따라서 표현과 전달 방식이 달라야 한다.


#. 올바른 시각화 방법을 선정하자

- 비교와 순위

** 특히, 비교는 분석 타겟의 특성을 더 강조할 수 있을 뿐 아니라, 그것을 주장할 수 있는 근거를 만들어주기 때문에 중요하다고 생각합니다.

- 상호 연관성

: 산점도(산포도), 상관관계, 히트맵

- 분포

: 히스토그램, 박스플랏(상자 그래프), 상자 수염 그래프(Box and Whisker plot)

* 분포는 특히 이상점을 찾는데 유용하게 사용될 수 있습니다.

- 지역적 특성이나 정보

: 지도 위에 도형의 크기와 색을 활용

- 부분에서 전체의 관계

: 파이 차트(원 그래프), 그룹 막대 그래프, 누적 열 차트

- 시간 경과에 따른 경향

: 막대 그래프, 시계열 그래프, 추세선



반응형(interactive) 시각화


#. 반응형 시각화의 장단점

- 많은 양의 정보를 하나의 플랫폼을 통해 전달 가능하다

- 그러나 모든 시각화 가능성에 대해 확인해봐야 하므로 사용자에게 많은 시간을 요구하게 된다.


#. 이벤트 리스너

- 사용자의 요구(query, needs)는 프로그래밍적으로 이벤트 리스너를 통해 실시간으로 처리(catch)해야 한다.

- 반응형 시각화에서는, 주로 마우스의 움직임이나 클릭 등을 인식하는데 사용한다.


#. 몇 가지 원칙

- 사용자의 행동이 시스템에 반영됐다는 것을 명확히 인식시켜줘야 함 (ex: 강조 표시, 밑줄, 색 변화, 굵게, 기울임 등)

- 피드백은 평균 1초 내에 구현되도록 해야 답답함을 느끼지 않을 것이다.

- 만약 알고리즘 특성 때문에 결과를 표시하기까지 시간이 필요할 경우, loading과 같은 처리 중 표시를 해야 이탈을 방지할 수 있다.



데이터 시각화는 예술이자 과학이며, 수학적인 문제를 푸는 일


#. 데이터 시각화의 목적을 수시로 상기하자

- 시각화는 사용자, 독자, 청자에게 시각적인 방법으로 정보를 명확하고 효과적으로 전달하고 소통하는 것

- 효과적인 시각화 결과물은 데이터와 증거들에 대해 분석하고 추론할 수 있게 돕는다.

- 또한 복잡한 데이터를 쉽게 접근 가능토록 하고, 이해시키며, 사용할 수 있게 돕는다.

- 비교와 특이점을 이해하는 것과 같은 특정한 분석이 중요할 수 있고, 이를 그림으로 표현할 수 있다면 더욱 좋다.


#. 효과적인 방법을 사용하자

- 수학적 문제를 푸는 것 처럼, 분석 목표를 달성하는 데에는 유일한 한 가지 방법만이 있는 것은 아니다.

- 표는 데이터의 날 것을 보여주지만, 다양한 형태의 도표와 차트는 변수들 간의 관계와 패턴 등을 잘 표현할 수 있다.




+ Recent posts