※ 이 포스팅은 저자 'Kirthi Raman'의 도서 <Mastering Python Data Visualization> 을 공부하며 정리한 글입니다.



Chapter 01. A Conceptual Framework for Data Visualization (데이터 시각화의 개념)


데이터를 분석하는 이유는 흔히 말하는 '인사이트'를 얻기 위함이라 볼 수 있겠습니다.


그러나, 인사이트는 쉽게 발견하기가 어렵습니다.

특히 주어진 데이터를 멋져보이고 아름다운(?) 모형을 사용한다고 해서 바로 얻어지는 것이 아닙니다.


저는 분석을 하기 전에, 반드시 데이터에 대한 이해가 필요하다고 생각합니다. (분석 목표에 대한 명확한 정의가 내려졌을 때)

데이터가 어떤지 살펴봐야 이상치나 특이점, 결측의 여부를 식별하고, 적절한 전처리 방법을 선택하여 무결성을 확보할 수 있습니다.

또한, 다른 다른 관측값(row)이나 변수(column)간의 일관된 비교나 분석 가능성을 확보하기 위한 스케일링, 표준화 등이 필요할 수 있습니다.

모형이 특정한 분포를 가정(정규분포 등)한다면, 적절한 변수변환이 필요할 수 있습니다.

분석 목적에 따라 수치형 데이터를 범주화 하는 등의 작업이 필요할 수도 있습니다.


등등등..

이러한 관점에서, '데이터 시각화'는 꼭 필요한 과정이 될 것입니다.

이 밖에도 꼭 모형을 사용하지 않더라도, 시각화를 통해서 변수간의 상관관계나 특이점 등을 찾아 통찰을 발견할 수 있을 것입니다.



이 책 Chapter 1에서 '데이터', '정보', '지식', '통찰'의 개념을 나눠서, 그것도 첫 장에 서술한 이유도 같은 맥락이지 않을까 싶습니다.

책에 따르면 이렇습니다.



#. 데이터

- 디지털의 형태를 가진 단순한 객관적 사실들의 나열

- 따라서 그 자체로 의미를 가지지 못하고, 의사결정에 그대로 사용될 수 없다


#. 정보

- 문제를 해결하기 위한 목적으로 가공/처리된 데이터

- 데이터 간 관계나 연관성을 문맥이나 배경을 바탕으로 부여한 것

- 단순한 질문에 대한 답을 데이터로부터 얻은 결과물


#. 지식

- 인간이 정보를 종합하여 이들을 이해하고 조직화 할 때 드러나며, 의사결정에 사용

- 데이터, 정보 뿐 아니라 경험을 통해 축적된 기술 등을 의미


#. 데이터 분석과 통찰

- 혁신적인 결과를 가져다 주는 '유레카'의 순간

- 비즈니스 가치를 이끌며, 의사결정을 개선하고, 고객을 더 잘 이해하게 되는 일

- 해결책을 발견하고 해결하기 위해 무엇이 필요한지에 대해 깨닫게 도움



그렇다면, 좋은 시각화란 무엇인가?

저자는 이렇게 말합니다.


" 좋은 시각화는 박물관의 전시품 같이 단지 보기 좋은 통계적 그림이 아니며, 우리로 하여금 파고 들게 하고 데이터의 변화를 좀 더 발견하게 한다 "

" 좋은 시각화는 데이터를 탐색하는 것을 돕고, 가치와 깊은 통찰을 제공하고, 효율적이고 시각적으로 매력적이며, 확장/축소 가능하며, 이해하기 쉽다 "



결국 데이터에서 인사이트를 얻기 위해, 시각화 작업은 꼭 필요한 프로세스입니다.

효과적인 시각화를 위해서는 분석에 대한 명확한 목표를 설정하고, 그 과정에서 데이터 전처리가 수행됩니다.

또한 결과를 보는 사람, 즉 청중에 대한 배려가 필요합니다. 시각화의 주제에 대한 배경지식과 시각화 도구에 대한 이해수준 등이 고려되어야 할 것입니다.




다음 장에서는 조금 더 구체적으로 데이터 시각화에 어떠한 좋은 방법들이 있는지 공부하게 될 것 같습니다. :)



+ Recent posts