한눈에 들어오는 차트와 지도는 글보다 강력하다. 문서가 글로만 빼곡히 채워져 있으면 사용자의 집중력을 저하시킬 뿐 아니라 설득력도 약해지기 마련이다. 하지만 적절한 타이밍에 등장하는 시각화된 데이터는 사용자의 주의를 환기시키고 주장을 더욱 강력하게 만든다. 이 책에서는 웹에서 제공하는 무료 시각화 도구를 이용해 데이터의 스토리를 생생하게 전달하는 방법을 설명한다. 데이터를 대화형(인터랙티브) 차트와 지도로 시각화하는 과정을 통해 데이터에 맥락과 스토리를 덧입혀 주장에 설득력을 더하는 효과적인 방법도 안내한다. 신뢰할 수 있는 데이터를 활용해 가치 있는 차트를 만들다 보면 자연스럽게 다양한 데이터로 만들어진 차트를 파악하는 안목도 생겨날 것이다.
저자소개
저자
잭 도허티
미국 코네티컷 하트퍼드의 트리니티 칼리지 교육학 교수. 학생들이 지역단체와 협력해 자신만의 스토리를 대화형 차트나 지도로 표현하는 데이터 시각화 과정을 가르치고 있습니다. 역사학자 교육을 수료했고, 코네티컷 하트퍼드의 학교와 주거 지역에 대한 역사를 쉽게 공유하고자 데이터 시각화를 배웠으며, 그 내용을 『On the line』(애머스트 칼리지 출판부, 2021)에 실었습니다.
저자
일리야 일라얀코우
코네티컷 데이터 컬래버레이티브(Connecticut Data Collaborative)의 시빅(civic) 기술자로 공공 데이터를 설명하고 탐색하기 위한 웹 기반 도구를 만듭니다. 트리니티 칼리지에서 컴퓨터 공학과 스튜디오 아트를 복수 전공했으며, 현재 영국 리즈 대학교에서 지리 정보 과학 석사 과정을 밟고 있습니다. 데이터를 분석하고 시각화하는 데 도움을 주는 디자인 기술 연구소 ‘픽처디짓(Picturedigits)’의 책임자이기도 합니다.
역자
김태헌
하나금융융합기술원, IBM 등을 거쳐 외국계 소비재 기업에서 시니어 데이터 과학자로 일하고 있습니다. 베이징 대학교 졸업 후 캘리포니아 대학교 샌디에이고 캠퍼스(UCSD)에서 국제경제 석사 학위를 받았습니다. 『AI 소사이어티』(미래의창, 2022), 『퀀트 전략을 위한 인공지능 트레이딩』(한빛미디어, 2020)을 집필했고 번역서로는 『단단한 머신러닝』, 『데이터 과학자와 데이터 엔지니어를 위한 인터뷰 문답집』(이상 제이펍, 2020) 등이 있습니다.
데이터로 이야기를 전달하기 위해 필요한 절차는 무엇일까요? 먼저 여러분의 주장을 설득력 있게 만들어줄 데이터를 찾고, 지저분한 데이터를 정리해 적절한 분석 범위와 비교 기준을 설정해야 합니다. 그리고 현상을 가장 잘 나타낼 만한 시각화 도구와 차트 유형을 선택해 유의미한 시각화 결과로 구현해야 합니다. 만약 사용자가 시각화된 결과와 직접 상호작용하거나 관심 있는 패턴을 직접 탐색할 수 있다면 더할 나위 없겠죠. 이 책은 앞서 설명한 데이터 스토리텔링의 절차대로 여러분을 데이터 시각화 여정으로 친절히 안내합니다.
먼저 시각화 도구를 선택할 때 고려해야 할 10가지 요소부터 스프레드시트 기초 사용법을 살펴봅니다. 그리고 데이터에서 의미 있는 비교를 하는 방법, 다양한 대화형 차트와 지도를 구현하는 여러 가지 무료 도구 사용법과 깃허브로 오픈 소스 코드 템플릿을 수정하고 호스트하는 법을 안내합니다. 더 나아가 차트와 지도로 거짓을 말하는 방법을 배워 여러분이 함정에 빠지지 않도록 주의시킵니다. 코드를 수정해본 경험이 없더라도 걱정하지 마세요. 단계별로 따라 하다 보면 어느새 데이터를 보기 좋게 시각화할 수 있는 코더가 된 자신을 발견할 겁니다.
주요 내용
효과적인 차트와 지도를 설계하는 원칙 이해하기
데이터 시각화 개념을 기반으로 올바른 도구 선택하기
구글 시트, 데이터래퍼, 태블로 퍼블릭으로 웹사이트에 적합한 대화형 차트와 사용자 맞춤 지도 제작하기
깃허브에서 Chart.js, 하이차트, 리플릿으로 작성된 오픈 소스 코드 템플릿 편집하기
다른 사용자가 만든 차트와 지도에서 편향을 인지하는 법 터득하기
추천사
이 책은 신의 선물입니다! 명확한 설명을 통해 데이터 시각화 개념을 단계별로 학습할 수 있습니다. 시각화를 아름답고 인터랙티브하게 만드는 방법뿐만 아니라 전체적인 스토리와 요점을 전달하는 방법도 설명합니다. 경험이 많은 프로그래머에게도 유용하고 입문자에게도 완벽한 책입니다.
개인적으로 데이터 분석에 관심이 많습니다. 그래서 데이터 분석에 관한 여러 가지 툴과 기술에 대한 책들을 보며 공부하고 있습니다. 그동안엔 R이나 파이썬 같은 데이터 분석 툴에 집중해서 공부를 해 왔다면 이번에 보게 된 "핸즈온 데이터 시각화"는 그와 달리 조금 특별한 책이었습니다.
데이터 분석에 관한 다른 책들에도 기본적으로는 데이터 시각화에 대한 이야기를 다룹니다. R에서는 gglpot, googleVis, 파이썬에서는 matplotlib, seaborn 같은 시각화 라이브러리를 활용하여 다양한 차트들을 그릴 수 있습니다.
이 책 "핸즈온 데이터 시각화"는 이보다 훨씬 다양한 여러 가지 데이터 시작화 도구들을 소개합니다.
구글 스프레드시트/차트
리브레오피스 캘크 스프레드시트/차트
에어테이블 관계형 데이터베이스
태블로 PDF 테이블 추출기
오픈리파인 데이터 클리너
데이터래퍼 차트/지도/테이블
태블로 퍼블릭 차트/지도/테이블
Chart.js 코드 템플릿
하이차트 코드 템플릿
구글 내 지도 간단한 지도 제작기
리플릿 맵 코드 템플릿
깃허브 편집 & 호스트 코드
깃허브 데스크톱 & 아톰 코드 편집기
GeoJson.io 편집 & 그리기 지오데이터
맵세이퍼 편집 & 조인 지오데이터
맵 래퍼 지오레퍼런스 이미지
다루고 있는 도구의 양과 종류가 엄청 많습니다. 책에서 설명한 대로 초심자도 쉽게 배울 수 있는 두 개의 도구(구글 스프레드시트와 데이터 래퍼 차트)만으로도 입문 수준의 거의 대부분을 완료할 수 있어서 큰 부담 없이 읽을 수 있었습니다. 처음 보는 생소한 도구들도 많이 만나볼 수 있었습니다.
이 책은 특정한 데이터 시각화 툴을 깊이 있게 A-Z까지 알려주는 종류의 책은 아닙니다. 디지털 도구 자체에만 초점을 맞추기보다는 데이터를 이용하여 스토리를 만드는 과정에 대해 충실하게 다루고 있는 책입니다.
스토리를 만들기 위한 스케치 과정은 무엇인지, 그래서 어떤 도구를 선택할 것인지, 그리고 그 도구를 어떻게 활용할 것인지에 대한 이야기들이 담겨 있습니다. 예를 들어 데이터를 수집하기 위해서는 어떤 도구가 효과적인지, 정리하거나 차트로 나타내기에 유용한 도구는 무엇이며 어떻게 사용하는지의 형태로 정리되어 있습니다.
예전에 읽어 보았던 데이터 스토리(낸시 두아르테 지음. 한빛미디어)라는 책(이 책도 개인적으로 추천합니다!!)이 (시각화한) 스토리 자체에 좀 더 초점이 맞춰져 있다면 핸즈온 데이터 시각화는 거기에 좀 더 기술적인 면이 가미된 책이라고 볼 수 있을 것 같습니다. 기존의 데이터 분석 책들에 비한다면 조금 더 스토리에 초점이 맞춰진 것 같고요.
개인적으로 흥미 있었던 주제는 지도로 시각화하는 부분과 대화형 차트를 만들기 위해 Chart.js를 활용하는 부분이었습니다. 매번 구글 스프레드시트나 엑셀로 막대 차트와 원형 차트만 만들어본 사람의 입장에서 신기한 종류의 차트들을 만들어 볼 수 있어서 신선했습니다. 어쩔 수 없이 샘플 예제의 지도가 미국 지도였던 것이 아쉽기는 했지만 재미있는 분석들을 볼 수 있었고, Chart.js는 자바스크립트를 활용해서 차트를 만들어 본다는 것이 신기했습니다.
데이터 시각화의 목표는 정보를 '진실하고 통찰력 있는 스토리를 포착하는 이미지'로 인코딩하는 것입니다.
데이터 시각화의 How만 이야기하지 않고 Why에 대한 이야기도 놓치지 않았던 아주 멋진 책이었습니다.
다양한 종류의 데이터 시각화 도구를 경험해보고 싶다면, 데이터 시각화 개념을 단계별로 학습해보고 싶다면 이 책 꼭 읽어보세요.
이 서평은 한빛미디어 <나는 리뷰어다 2022> 서평단 활동으로 무상으로 도서를 제공받아 작성하였습니다. 서평단 활동과 별개로 저의 관심과 필요에 따라 책을 읽고 객관적으로 서평을 작성하려고 노력하였습니다.
책의 구성은 하나의 시각화 툴을 기반하고 있지 않고 다양한 툴들을 '도구'로서만 책 내용에 담고 있습니다. 기초 통계 보다는 데이터 스토리텔링을 할 때 할 수 있는 왜곡들에 대해 다룬 책입니다. 편향이나 정규화에 대해서도 다뤄볼 수 있다는 점이 이 책만의 특별한 점입니다. ??
(중략)
핸즈온 데이터 시각화이기 떄문에 직접해볼 수 있는 툴들을 기반으로 설명한다는 점이 좋지만, 너무 여러 도구를 사용하기 때문에 책의 두께에 비하면 TMT(Too Much Tools)로 보입니다. 아무래도저자의 의도는 툴보다 스토리텔링이었기 때문에 도구는 수단이고, 주로 데이터 스토리텔링을 어떻게 하는지를 초점으로 두고 있습니다. 하지만 책의 두께가 그리 두껍지 않고 매 도구마다 간단하게라도 도구에 대한 설명이 들어가기 때문에 위의 리스트의 반으로라도.. 도구의 범위를 줄였으면 하는 아쉬움이 있었습니다. 추가로 아쉬운 점은 책에서 종종 발견되는 오타도... 있었습니다.
데이터를 분석하고 분석된 결과물을 바탕으로 머신러닝 혹은 딥러닝 모델을 구현하거나 그 구조를 정의하여 학습을 수행하는 일련의 과정. 구축한 머신러닝 혹은 딥러닝 모델을 서비스에 적합한 파이프라인과 함께 시스템화 하는 과정
위 두 과정을 실제 실무에서 적용할 때, 꼭 같이 추가해줘야 할 부분이 바로 시각화 영역이라고 생각합니다. 왜? 그래서 왜? 뭐가 좋은건데? 뭐가 바뀌는건데? 다양한 질문들이 나오는 현실에서 시각화를 통해 보다 쉽게 다른 사람이 파악하는 부분이 중요하다고 생각하기 때문입니다.
이 책은 이런 부분에 있어 다양한 경험을 쌓을 수 있도록 도와줌에 있어 큰 역할을 한다고 여겨집니다. 책을 통해 실제 데이터를 시각화하는 경험을 정말 방대하게 쌓을 수 있습니다.
또한 책이 풀컬러본임에 따라 눈에 확 들어와 읽히는 부분에 막힘이 없었습니다.
실제 현장에서 데이터를 다루며 설명가능한 모델 or 파이프라인 구축 or 분석가 분들에게 강추드립니다.
데이터 분석, AI 등을 공부하는 학생, 직장인 분들에게도 시각화를 통해 효과적인 EDA를 할 수 있게 도와줄 것이라 확신합니다.
데이터 시각화는 우리 주변에서 흔히 사용되고 있습니다. 하루치의 신문도 많은 그래프를 포함하고 있고, 과거 자료와 연관시켜 통계를 표현한 그림을 확인할 수 있습니다. 최근 머신러닝과 데이터 과학 대한 관심이 증가함에 따라 주어진 데이터를 사전에 분석하고 통계 내기 위한 데이터 시각화가 주목받고 있지만, 머신러닝 책에서 사용했던 몇 가지 시각과 시각화 방법이나 캐글이나 GitHUB의 기법/코드들을 깊게 생각하지 않고 가져다 사용하는 경우가 많이 있습니다. 이 책은 데이터 시각화 만을 다루는데, 이를 정의하고 어떤기술이 필요하며 좋은 차트/지도/테이블의 기준은 무엇이고, 마음가짐이나 주의할 점은 어떤 것들이 있는지에 대해 쉽게 설명하고 따라 할 수 있는 식으로 만들어진 서적입니다. 데이터 시각화 관련 관심이 있는 입문자를 대상으로 하여, 비단 데이터 과학자 뿐만 아니라 다른 이들이 만든 그래프, 차트 등을 블로그나 보고서에 포함시키고 싶은 분들에게 유용합니다.
저자는 교육학 교수로 학생들에게 개인의 자료를 차트나 지도로 표현하는 시각화 과정을 가르치고 있습니다. 아마도 입문자 수준의 학생들을 대상으로 하였을 것이고, 많은 피드백을 받으며 이들에게 최적화된 교육 방법이 무엇인지 고민했던 것 같으며, 이 부분은 책 전반에 녹아들어 있습니다. 책 전반에 걸쳐 책을 쓰는 사람의 관점뿐만 아니라 책을 보는 관점에서 놓칠 수 있는 부분이나 시행착오를 기술해 놨기 때문에 책을 실습하면서 생기는 많은 궁금증 들을 미리 해결할 수 있습니다.
챕터0에서 데이터 시각화를 이용하여 의미를 자연스럽게 왜곡시킬 수 있으므로 주의하라는 마음의 환기를 시켜주는데, 다른 책이였으면 뒷부분에 나올 법 한 내용이지만 책의 서두에 가장 주목받는 부분에서 이를 간략히 언급하는 것이 인상적이였습니다.
챕터1에서는 구글 퓨전테이블(Google Fusion Tables) 등 개정판 이전에 기술되었던 내용이라도 변경되거나 없어진 제품이 있다면 내용에 반영하여 최신 내용을 반영했다는 내용과 함께 비트워든(Bitwarden, 패스워드관리도구)을 추천하는 등 입문자들이 최대한 실습에 도움이 되고 활용할 수 있도록 내용이 구성되어 있습니다. 마치 착한 대학강사가 학생들에게 실질적 도움을 주기 위해 구두로 설명해 주는 팁을 알려주는 것 같습니다.
챕터2를 통하여 구글 설문지를 통한 데이터 수집, 각종 스프레드시트를 통한 데이터 확인 방법을 알아봅니다. 데이터를 확인하는 가장 기본적인 방법인 스프레드시트 선택, 기본적인 연산 방법, 포멧의 종류 등을 설명하며, 입문자들은 별도의 스프레드시트 내용을 학습할 필요 없이 기본적인 내용부터 기본 기술과 개념을 배울 수 있습니다.
챕터3에서는 데이터를 얻을 수 있는 위치와 주의사항에 대해 설명합니다. 역자분께서 이 챕터에 국내 데이터를 얻을 수 있는 다양한 위치를 덧붙였다면 더 활용도 높은 도서가 될 수 있었을 것 같아 아쉬운 부분이였습니다.
챕터4에서는 테이블을 구글 시트에서 정리하고 타불라로 PDF에서 추출하며, 오픈리파인을 이용해 정리하는 과정 등을 실습하고 올바르게 시각화를 위한 결측값, 잘못된 값, 형식이 다른 값 등을 보정하는 방법과 기술에 대하여 설명합니다.
챕터5에서는 데이터 비교를 위해 정규화 등의 일반적인 전략을 소개합니다.
파트2에서는 파트1에서 설명한 지식을 기반으로 본격적으로 시각화를 설명합니다. 챕터6의 차트, 챕터7의 지도, 챕터8의 테이블을 설명하며 이 책의 핵심 내용입니다.
챕터6에서는 스토리를 차트에 반영하는 전반적인 방법에 대하여 알아보며 미적 지침 등에 따라 좋은 차트를 만드는 법을 배웁니다. 챕터7에서는 포인트와 폴리곤을 활용하여 스토리를 전달하고 디자인 원칙에 따라 지도를 통한 좋은 시각화 방법에 대하여 설명합니다. 챕터9를 통해 웹페이지에 시각화 자룔르 임베딩하는 방법을 실습하고 있습니다. 파트3에서는 데이터가 있을 때 외부 템플릿을 이용하는 방법으로 고급스러운 시각화를 만드는 방법을 설명합니다.
저와 같이 시각화에 대해 궁금하여 도서를 선택하고자 한다면 파트2 부분을 읽어보고 선택하시면 도움될 것 같습니다.
빅데이터 시대라는 이름처럼 거의 모든 곳에서 데이터로부터 얻는 인사이트를 중요시하고 있다. 하지만 아무리 좋은 데이터를 많이 가지고 있어도 누군가에게 데이터의 의미와 가치를 제대로 전달하려면 특별한 방법이 필요하다.
데이터를 분석하고 해석하는 일은 항상 해오던 일이었다. 학생 때는 발표 자료나 논문을 위해, 창업에 도전했을 땐 시장성, 고객 반응, 성과 등의 자료로 성공적인 IR을 위한 자료를 완성하기 위해 셀 수 없이 많은 데이터로부터 이야기를 끌어냈었다. 이렇듯 학생, 교육자, 연구원, 직장인, 사업가 등 누구나 해왔던 일이다.능력은 '데이터 리터러시'라는 이름을 붙이면서 더 많은 관심이 쏟아지고 있다. 엔지니어로 일하고 있는 지금도 대시보드를 포함해 다양한 데이터 시각화 작업을 하고 있다. 또한 질병과 전쟁 등으로 많은 어려움이 이어지고 있는 근 몇 년간 질병의 확산 추이나 경제 지표 등 다양한 사회적 상황을 데이터에 기반하여 심각성을 강조하고 있기도 하다.
하지만 전달하려는 의미를 직관적으로 시사하면서 시각적으로 매력적인 시각화 자료를 만드는 일은 항상 어렵다. 수많은 데이터 시각화 툴 사이에서 헤매다가 화려하기만 하고 막상 전달하려는 내용은 잘 전해지지 않는 자료를 만드는 일도 있다. 비슷한 고민을 했던 사람이라면 이 책이 가이드라인이 되어줄 것이라고 믿는다.
이 책은
✔️ 다양한 예시로 센스있는 시각화 아이디어를 얻을 수 있다.
사실 데이터 시각화에서 가장 어려웠던 것은 데이터를 시각화하는 기술보다는 시각화 방법에 대한 아이디어를 내는 것이었는데, 어떤 데이터를 시각화하든 결론은 막대그래프와 파이 차트 둘 중 하나일 정도로 아이디어가 부족했었다.
이 책은 코로플레스 지도 디자인 원칙이라고 하는 데이터 시각화 색상과 색상의 간격에 대한 개념이나 포인트(점)와 폴리곤(선)의 개념 등 효과적인 시각화를 위한 디자인적인 개념을 알려준다. 이에 더해 다양한 시각화 예시를 통해 좋은 예와 나쁜 예를 비교하여 보여주기도 하고, 데이터에 따라 어떤 차이를 보이는지 설명해주기도 하는 등 다채로운 시각화 아이디어를 낼 수 있도록 도와준다.
✔️ 대화형(인터랙티브) 시각화에 대해서 알려준다.
대화형 시각화는 정적 시각화와 다르게 시청자들이 웹 브라우저를 통해 데이터와 직접적으로 상호작용할 수 있다고 한다. 다시 말해 마우스 커서의 움직임이나 클릭, 스크롤 등과 같은 이벤트를 통해 데이터를 정렬하거나 검색하는 등 사용자가 능동적으로 정보를 활용할 수 있는 방식이라는 뜻이다.웹/앱 디자인은 모두 반응형 디자인으로 변화하는 흐름에서 JPG, PNG, 또는 PDF 형식의 정적 시각화 방식을 고수하는 데에는 한계가 있다. 다른 흐름과 같이 시각화 방식도 대화형(인터랙티브) 차트와 지도로 데이터를 단순한 숫자의 나열을 넘어 이야기를 가질 수 있도록 변화하는 추세이며, 이러한 자료가 더 많은 관심과 흥미를 불러일으킬 수 있다. 이 책에서 이러한 대화형 시각화 방식에 대해서 이해하기 쉽게 알려준다.
✔️ 데이터를 기반으로 이야기를 전하고 싶은 모든 사람을 위한 책이다.
이 책에서는 어떤 이야기를 할지 고민하는 단계부터 데이터를 시각화하고 이를 공유하는 다양한 방법을 가르쳐주고 있다. 특히 시각화한 데이터로 효과적인 스토리텔링을 하는 방법도 가이드해주어서 유용했다. 그 외에도 수많은 데이터 시각화 툴과 시각화 방법 가운데 어떤 방식을 택해야 할지, 데이터를 어떻게 이해하고 활용해야 할 지 등을 가이드해준다.
✔️ 예제에서 구글 시트를 주로 사용한다.
예전에는 엑셀로 대부분의 작업을 했다면 이제는 온라인에서 협업이 가능한 구글 시트가 그 자리를 대체하고 있다. 이 책 대부분의 예제에서 구글 시트를 주로 사용하여 데이터를 가공하는 방법부터 이를 공유하여 활용하는 방법 등을 알려주고 있어 실용적인 도움을 받을 수 있다.
이번핸즈온데이터시각화책은파이썬, R 등프로그래밍언어를통해데이터시각화방법을표현하는방식의학습서가아닌코딩지식없이도누구라도보고따라할수있는데이터시각화의기본적인개념원리를다루고있습니다. 쉽고무료로사용할수있는온라인도구를이용해각종차트뿐만아니라자리정보를전달하는지도까지쉽게따라하면할수있는핸즈온예제까지제공합니다.
한빛미디어의 '핸즈온 머신러닝'은 이미 오랜 기간 사랑받아온 머신러닝 계의 베스트셀러이자, 교과서입니다.
덕분에 책의 이름만으로도 데이터 시각화 분야의 교과서가 등장했구나, 하고 짐작할 수 있었는데요.
사실 시각화는 참 매력적이면서도 어려운 분야입니다.
단순히 시각화 도구 하나를 쓸줄 안다고 해서, 원하는 시각화를 자유자재로 할 수 있는 것이 아닙니다. 또, 대부분의 케이스에서 다양한 배경 지식과 풍부한 경험을 필요합니다. 데이터를 다루는 데에도 능숙해야 합니다. 심지어, 도구도 너무나 다양합니다.
본 도서는 하나의 도구에 치중하는 것보다, 여러 케이스에 대응할 수 있는 다양한 경험을 할 수 있도록 하는 것을 목적으로 합니다. 또, '시각화 도구'보다는 '시각화' 그 자체에 집중하고 있습니다.
저 또한 Python의 Matplotlib, Seaborn부터 시작해서, R의 ggplot, Tableau 등 몇몇 툴을 사용해본 경험이 있지만, 이렇게 다양한 케이스의 시각화를 학습하는 경험은 처음이었습니다.
굳이 책에서 사용되는 메인 도구를 찝어낸다면, 스프레드시트가 될 것입니다. 초반부에서도 스프레드시트를 이용하여 간단히 시각화 하는 방법을 학습하고, 이후의 챕터에서도 반복적으로 스프레드시트가 등장합니다. 하지만, 항상 스프레드시트를 사용하는 것이 아니라, 특정한 주제 (ex. 데이터 정제, 다양한 차트 생성 등)에서 스프레드시트를 도구로 사용하는 상황에 등장하게 됩니다. 즉, 비슷한 케이스를 스프레드시트로도 시각화하고, 태블로로 시각화하는 경우도 있습니다.
가장 인상적이었던 챕터는 'Chapter 7. 데이터를 지도로 시각화하기' 였습니다.
데이터를 지도로 표현하는 것은 무척 강력한 시각화 기법입니다. 하지만 그만큼 어려운 일이기도 합니다. 해당 챕터에서는 효과적으로 지도를 디자인 하는 방법과, 적절하게 데이터를 지도상에서 표현하는 방법, 여러 타입의 지도 생성 실습 등을 해볼 수 있었습니다. 특히, 데이터 정제와 디자인에 많은 주의를 기울여야 하는 코로플레스 지도 디자인을 학습하며, 앞으로 무척 써먹을 곳이 많을 것 같다는 생각이 들기도 했습니다.
생성된 시각화 자료를 웹 상에 임베딩하는 방법, 깃허브를 사용하여 시각화 코드를 관리하는 방법 등이 삽입된 것도 인상적이었습니다. 단순히 '시각화 하는 법'을 배우는 것이 아닌, '시각화를 활용하는 것' 자체를 배우는 콘텐츠이기 때문입니다. 이처럼, 세심함이 느껴지는 부분이 참 많았습니다.
아무래도 한 권에 다양한 콘텐츠를 꽉꽉 눌러담은 만큼, 초심자가 읽기에는 다소 어려운 내용일 수 있겠습니다. 특히, 데이터를 다루어본 경험이 많이 없는 독자분들이라면 끝까지 완독하기에 어려움을 느낄 수 있습니다. 책의 구성 자체가, 초심자에게 기초를 하나하나 가르쳐준다기 보다는, 이미 어느정도 경험이 있는 이들에게 데이터 시각화를 담당하는 실무자가 알아야 할 필수사항, 디테일한 노하우, 다양한 방법론을 전수해주는 형태이기 때문입니다. 저 또한 읽으면서 상당히 어렵게 느껴지는 부분이 많았지만, 그만큼 새로운 지식과 기술을 많이 배울 수 있었습니다.
보다 진지하게 데이터 시각화를 학습하고 익혀야 할 필요성을 느끼시는 분들에게는, 그 어떤 것보다 값진 콘텐츠가 꽉꽉 들어차 있다고 할 수 있겠습니다. 특히, '데이터 시각화의 교과서'가 필요하신 분들에게 강력 추천 드립니다.
시각화는 굉장히 중요하다고 생각한다. 1000원짜리 꽃 한 송이를 사더라도 이걸 어떻게 포장하느냐에 따라서 달라지는 것처럼, 같은 결과라도 이를 어떻게 만드느냐에 따라서 고급 선물이 되기도 하고, 싸구려 선물이 되기도 한다.
그러면 시각화를 잘하려면 어떻게 해야 하나? 우선 좋은 그림, 잘 그린 그림을 많이 봐야 한다고 생각한다. 한 번도 보지 못한 세계를 그린다는 것은 정말로 재능, 상상력이 뛰어나야지 가능한 일이고, 우리 같은 평범한 사람은 잘 그린 그림을 많이 봐야 한다.
그렇다면 잘 그린 그림이란 무엇인가? 잘 그린 그림은 한 번 딱 그림을 보고, 그 그림이 말하고자 하는 것이 직관적으로 와닿는 그림이다. 두 번, 세 번 이 그림이 의미하는 것을 곱씹어 보는 것이 아니라, 나의 뇌에 총알 한 발을 쏘듯이 이해되는 그림.
그런 그림을 그리는 법을 훈련하기 위해서 "핸즈 온 데이터 시각화"라는 책을 구매했다. 기본적인 시각화 기술, 좋은 그림의 예시와 나쁜 그림의 예시를 잘 설명하고 있는 듯싶다.(좋은 그림, 나쁜 그림의 이해보다는 기본적인 시각화 기술에 초점이 맞춰져있다) 시각화에 기본기가 있는 사람에게는 추천하지 않지만, 기본기를 쌓고 싶은 사람에게는 추천한다.
데이터에 대한 질문을 던지는 것. 데이터에 대한 설명과 출처가 있는 메타데이터를 읽으세요. 그리고 콘텐츠를 검토해 명시적으로 설명된 부분과 감춰진 부분을 찾아내 데이터의 근원, 맥락, 한계에 대해 더 잘 이해해야 합니다. 이 과정은 컴퓨터로 프로그래밍할 수 없습니다. 화면에 표시되는 문자와 숫자 이상을 보려면 비판적 사고를 토대로 해석해야 합니다.
한눈에 들어오는 차트와 지도는 글보다 강력하다. 문서가 글로만 빼곡히 채워져 있으면 사용자의 집중력을 저하시킬 뿐 아니라 설득력도 약해지기 마련이다. 하지만 적절한 타이밍에 등장하는 시각화된 데이터는 사용자의 주의를 환기시키고 주장을 더욱 강력하게 만든다. 이 책에서는 웹에서 제공하는 무료 시각화 도구를 이용해 데이터의 스토리를 생생하게 전달하는 방법을 설명한다. 데이터를 대화형(인터랙티브) 차트와 지도로 시각화하는 과정을 통해 데이터에 맥락과 스토리를 덧입혀 주장에 설득력을 더하는 효과적인 방법도 안내한다. 신뢰할 수 있는 데이터를 활용해 가치 있는 차트를 만들다 보면 자연스럽게 다양한 데이터로 만들어진 차트를 파악하는 안목도 생겨날 것이다.
[대상 독자]
학생, 교육자, 커뮤니티 활동가, 비영리단체, 사업가, 지역 정보 관계자, 기자, 연구원 또는 데이터를 통한 스토리텔링 방법을 배우고 싶은분
[주요 내용]
- 효과적인 차트와 지도를 설계하는 원칙 이해하기
- 데이터 시각화 개념을 기반으로 올바른 도구 선택하기
- 구글 시트, 데이터래퍼, 태블로 퍼블릭으로 웹사이트에 적합한 대화형 차트와 사용자 맞춤 지도 제작하기
- 깃허브에서 Chart.js, 하이차트, 리플릿으로 작성된 오픈 소스 코드 템플릿 편집하기
- 다른 사용자가 만든 차트와 지도에서 편향을 인지하는 법 터득하기
[서평]
구글 시트부터 깃허브를 통한 코드 템플릿 수정까지,
데이터 스토리텔링 기술 A to Z
데이터로 이야기를 전달하기 위해 필요한 절차는 무엇일까요? 먼저 여러분의 주장을 설득력 있게 만들어줄 데이터를 찾고, 지저분한 데이터를 정리해 적절한 분석 범위와 비교 기준을 설정해야 합니다. 그리고 현상을 가장 잘 나타낼 만한 시각화 도구와 차트 유형을 선택해 유의미한 시각화 결과로 구현해야 합니다. 만약 사용자가 시각화된 결과와 직접 상호작용하거나 관심 있는 패턴을 직접 탐색할 수 있다면 더할 나위 없겠죠. 이 책은 앞서 설명한 데이터 스토리텔링의 절차대로 여러분을 데이터 시각화 여정으로 친절히 안내합니다.
먼저 시각화 도구를 선택할 때 고려해야 할 10가지 요소부터 스프레드시트 기초 사용법을 살펴봅니다. 그리고 데이터에서 의미 있는 비교를 하는 방법, 다양한 대화형 차트와 지도를 구현하는 여러 가지 무료 도구 사용법과 깃허브로 오픈 소스 코드 템플릿을 수정하고 호스트하는 법을 안내합니다. 더 나아가 차트와 지도로 거짓을 말하는 방법을 배워 여러분이 함정에 빠지지 않도록 주의시킵니다. 코드를 수정해본 경험이 없더라도 걱정하지 마세요. 단계별로 따라 하다 보면 어느새 데이터를 보기 좋게 시각화할 수 있는 코더가 된 자신을 발견할 겁니다.
각 장은 우리의 핵심 목표인 데이터로 진실하고 의미 있는 스토리를 만들기 위한 하나하나의 과정으로 구성되고 있습니다.
이책의 서문에서는 데이터 시각화가 중요한 이유를 설명하고, 차트, 지도, 단어가 우리를 스토리 속으로 끌어당기는 방법과 진실로부터 속이는 방법을 보여줍니다.
1부 기본 기술
1장 ‘스토리를 위한 도구 선택하기’에서는 스토리를 스케치하고 스토리를 효과적으로 전달하는 데 필요한 시각화 도구를 선택하는 방법을 살펴봅니다.
2장 ‘스프레드시트 스킬 강화하기’에서는 기초부터 시작하여 피벗 테이블과 룩업 수식을 사용해 데이터를 구성하고 분석하는 방법과 지오코딩 추가 도구 및 온라인 양식을 사용하여 데이터를 수집하는 방법을 설명합니다.
3장 ‘데이터를 찾고 질문하기’에서는 신뢰할 수 있는 정보를 구체적인 전략을 알아보고, 데이터가 나타내는 것과 그 속에 숨어 있는 이해관계에 대한 심도 있는 질문을 던집니다.
4장 ‘지저분한 데이터 정리하기’에서는 스프레드시트 및 고급 도구를 사용해 불일치와 중복을 찾아서 수정하는 방법과 디지털 문서에서 추가 테이블을 만드는 방법을 소개합니다.
5장 ‘의미 있는 비교하기’에서는 편향된 방법을 주의하면서 데이터를 분석하고 정규화하기 위한 통상적인 전략을 제공합니다.
2주 시각화 구축
6장 ‘차트 만들기’에서는 배우기 쉬운 드래그 앤드 드롭 도구를 사용해서 시각화하는 방법과 다양한 데이터 스토리에서 가장 잘 작동하는 도구가 어떤 것인지 설명합니다
7장 ‘데이터를 지도로 시각화하기’에서는 공간 성분을 포함한 여러 가지 유형의 시각화 구축에 대해 설명하고, 유의미한 지도를 만드는 것에 대한 어려움을 논의합니다.
8장 ‘테이블을 활용한 시각화’에서는 섬네일 시각화인 스파크라인을 포함해 대화형 테이블을 만드는 방법을 설명합니다.
9장 ‘웹에 임베딩하기’에서는 이전 장들의 내용을 종합해 임베드 코드를 복사 및 수정하여 여러분만의 시각화 결과물을 온라인상에 공개하여 더 많은 청중과 작업을 공유하는 방법을 알아봅니다.
3부 코드 템플릿과 고급 도구
10장 ‘깃허브로 코드 수정하고 호스트하기’에서는 오픈 소스 시각화 코드 템플릿을 수정하고 공유하는데 널리 사용되는 인기 있는 플랫폼의 웹 인터페이스를 살펴봅니다.
11장 ‘Chart.js와 하이차트 템플릿’에서는 오픈 소스 코드 템플릿을 활용해 웹 어디서나 사용자 동의하고 호스팅할 수 있는 차트를 만드는 방법을 배웁니다.
12장 ‘리플릿 맵 템플릿’에서는 오픈 소스 코드 템플릿을 사용하여 데이터 스토리를 전달하기 위한 다양한 지도를 구축합니다.
13장 ‘지도 데이터 변환하기’에서는 지리 공간 데이터를 더 자세히 배우고, 배우기 쉬운 도구를 활용해 지도에 적합한 데이터를 사용자 정의하는 방법을 배웁니다.
4부 진시랗고 의미 있는 스토리 전달하기
14장 ‘거짓을 발견하고 편향 줄이기’에서는 차트와 지도로 거짓을 이야기하는 방법을 살펴보고, 진실한 이야기를 전하는 방법을 배웁니다.
15장 ‘데이터 스토리 말하고 보여주기’에서는 앞선 모든 장의 내용을 복습하고 데이터 시각화가 왜 단순히 숫자에 대한 것이 아닌 독자를 설득하는 진실한 이야기인지에 대해 살펴봅니다. 그리고 여러분의 해석이 중요한 이유에 대해서도 이야기합니다.
디지털 트랜스포메이션이라는 단어가 클리셰처럼 느껴질 정도로 많은 기업들이 데이터 기반의 의사결정을 위한 비즈니스 구조 전환을 시작했지만 현장에서는 여전히 기본적인 데이터를 다루는 일에도 어려움을 느끼는 사람들이 많습니다. 이 책은 파이썬, R 등 프로그래밍 언어 코드를 통한 데이터 시각화 방법이 아닌 프로그래머가 아닌 사람도 쉽게 따라할 수 있는 데이터 시각화 입문서 입니다.
먼저, 파이썬 R 등의 언어를 통해 시각화를 하는 방법을 알고 싶은 분에게는 적합하지 않다. 해당 도서는 코딩이 필요없는 GUI 툴을 이용하여 시각화를 하는 방법을 알려주는 도서이다. google spread sheet, tableau, chart.js 등으로 차트를 그리는 방법을 알려준다. 개인적으로 이러한 툴을 소개해 주는 부분 보다는 차트마다 이쁘게 그리는 방법을 알려주는 방법과, 데이터를 볼 때 주의해야 할 부분을 알려주는 부분이다. 이 부분만 봐도, 괜찮다고 느껴지며 만약 학생이라면 파트3 에 있는 깃허브로 코드 수정핟고 호스트하는 부분이 포트폴리오 생성시 유용하다고 생각이 든다.
일을 하며 항상 그래프를 대략적으로 보니, x축과 y축의 척도나 상한, 하한을 제대로 체크하지 못해 잘못된 판단을 내리기도 한다.
이번에 핸즈온 데이터 시각화를 읽으면서 가장 흥미로웠던 부분은, 데이터들을 통해 ‘의미 있는 비교’를 하는 방법이었다.
예를 들어 ‘상관 관계’과 반드시 ‘인과 관계’를 의미하지는 않는다는 것이나, 실무에서도 서로 규격, 척도가 다른 데이터를 취급할 때, 이를 고려해서 공통 기준을 마련하거나 비율로 설정해 데이터를 정리해야 하는 것 등이다.
특히 작업 중에는 이런 것 들을 놓치기 쉬워, 보는 사람이 데이터를 이해하기 어렵게 만들기도 한다.
책의 예시 중 미국 주별 자동차 사망자 수를 비교할 때 많은 생각을 하게 됐다. 나는 주 인구 당 사망자 수를 비교한다면 충분히 공정한 비교가 된다고 생각했다. 하지만 책에서는 안전한 대중교통 인프라가 있는지도 고려하여 차량 주행거리를 수식에 추가하였다.
또한 시계열 데이터 비교 시 인플레이션 등을 감안하여, 이런 수식 다듬기를 통해 실제와 유사한 해석이 가능하다.
다만 내가 생각하기에, 이런 사항들을 하나하나 고려하기는 힘들 것 같다. 실제로 관계가 단순히 선형이 아닐 수도 있고, 나누지 않고 오히려 곱하는 등 다양한 각도로 의미를 찾아야 하기 때문이다.
실험 데이터를 다루는 입장에서, 그래프를 그리기 위한 전략들이 있는 것 또한 큰 도움이 되었다. 데이터의 종류가 몇 개인지, 비율이 중요한지, 연속 데이터인지 등에 따라 차트 종류를 달리하거나, 최소한의 색 및 선 굵기 조절 등을 통해 데이터 차이 명확화가 가능하였다. 특히, 필터링된 선 차트 등은 이번에 처음 알았는데, 다양한 데이터를 한번에 볼 때가 많은데 적극적으로 사용해야겠다고 생각했다.
단순 데이터를 차트로 만드는 것 뿐만 아니라, 구글 스프레드시트를 이용한 기본적인 처리부터 데이터로 지도를 시각화하거나 웹에 임베딩하는 등 다양한 것들을 소개해주고 있어, 관련 실무자들이 쓰기에는 적합한 책이라고 생각한다.
책을 읽으면서 가장 먼저 든 생각은 ‘이 책 정말 친절하게 자세히 설명해준다'라는 것이었다.
제목이 ‘Hands-On Data Visualization’인만큼 책을 보면서 실제로 모든 과정을 쉽게 따라할 수 있게 도와주어서 좋았다.
책을 읽은 후 정리해 본 각 장의 내용은 아래와 같다.
CHAPTER 0 서문
우리가 데이터 시각화를 하는 목적은 무엇일까
[PART I 기본 기술]
CHAPTER 1 스토리를 위한 도구 선택하기
어떠한 점을 유념해서 도구를 사용해야 할까?
CHAPTER 2 스프레드시트 스킬 강화하기
여러 장점이 많은 구글 스프레드시트를 사용하는 법을 알아보자
CHAPTER 3 데이터를 찾고 질문하기
시각화를 하기 위해 어떠한 데이터를 사용해야 할까?
CHAPTER 4 지저분한 데이터 정리하기
가장 처음의 데이터는 깔끔하지 않다. 이것을 어떻게 정리해서 우리가 원하는 형태로 이용할 수 있을까?
CHAPTER 5 의미 있는 비교하기
비교를 하는데에 있어서 유의할 점은?
[PART II 시각화 구축]
CHAPTER 6 차트 만들기
차트를 구성하는 다양한 디자인 방법의 특징을 알아보자
CHAPTER 7 데이터를 지도로 시각화하기
지역적 특성과 함께 존재하는 데이터라면 그 특징을 잘 표현해보자
CHAPTER 8 테이블을 활용한 시각화
테이블로 특징을 잘 드러낼 수 있는 데이터라면 테이블을 호라용해보자
CHAPTER 9 웹에 임베딩하기
웹을 이용해서 시각화 결과를 공유하자
[PART III 코드 템플릿과 고급 도구]
CHAPTER 10 깃허브로 코드 수정하고 호스트하기
깃헙을 이용해보자
CHAPTER 11 Chart.js와 하이차트 템플릿
자바스크립와 Chart.js를 이용해서 더 다양하고 효율적인 시각화 결과를 도출해보자
CHAPTER 12 리플릿 맵 템플릿
Leaflet을 사용해서 더욱 강력한 대화형 지도 시각화 결과를 도출해보자
CHAPTER 13 지도 데이터 변환하기
지도 데이터를 제대로 이용하기 위한 다양한 변환 및 편집 방법을 알아보자
[PART IV 진실하고 의미 있는 스토리 전달하기]
CHAPTER 14 거짓을 발견하고 편향 줄이기, CHAPTER 15 데이터 스토리 말하고 보여주기
데이터 시각화에 있어서 지켜야할 원칙
APPENDIX 자주 발생하는 문제 해결법
자주 발생하는 문제들에 대한 팁
위에서 적은 목차를 보면 책의 내용이 정말 자세하고, 데이터 시각화를 처음 다루려는 사람에게 아주 적합하다는 것을 단번에 알아차릴 수 있을 것이다.
개인적으로 구글 스프레드 시트를 자주 사용해왔음에도 이것으로 데이터 시각화를 도전해볼 생각은 못 했어서 좋은 영감을 받을 수 있었다.
순차적으로 따라가기 수월하게 되어 있는 책의 목차 외에도 인상깊었던 점은 아래와 같다.
각 챕터에서 다루려는 내용과 그 의의에 대한 자세한 언급
특정 툴의 사용법이나 코드만을 열거해놓은 것이 아닌 ‘우리가 지금 이것을 왜 해야하고, 이것을 할 때에는 어떠한 기준을 가지고 하는 것이 좋은지'에 대한 철학에 대해 계속해서 일깨워준다.
개발을 하다보면 어느새 특정 결과를 내는 데에만 매몰되어서 큰 그림을 보지 못하는 경우가 많은데, 이 책은 자세한 목차와 함께 특정 데이터가 지니는 의미와 그 의미를 어떻게 시각화할 수 있을지에 대해 끊임없이 생각하게 만들어주어서 좋았다.
다양한 툴의 자세한 사용법
스프레드 시트, 깃헙 등 모두 굉장히 편리할 툴이지만, 처음 사용하면 도메인의 용어에 익숙하지 않아서 어려울 수 있다. 이 책에서는 그 사용법에 대해 아주 자세히 서술되어 있고, 번역 또한 매끄럽게 잘 되어 있어서 꼭 시각화가 아니더라도 이 책에서 배운 방법대로 다른 개발에 적용해 볼 수 있도록 도와주어서 좋았다.
시각화를 할 수 있는 다양한 방법들의 특징들
차트 종류가 워낙 다양하다보니 한 가지 데이터를 어떠한 차트로 다루는 것이 가장 효율적일지, 차트 디자인을 결정한 이후에도 수많은 번복이 이루어지기 마련이다. 이 책에서는 좋은 예와 좋지 않은 예를 미리 알려주어서 미리 피해갈 수 있는 다양한 인사이트를 주어서 좋았다.
시중에 판매되는 모든 데이터 시각화 책을 읽어본 것은 아니지만, 읽어본 몇 권의 책 중에서는 가장 자세하고 친절하게 시각화에 대해 알려준 책이다.
데이터 시각화에 관심이 있고, 어떻게 시작해야할지 망설이고 있다면 이 책을 강력 추천한다.
그것은 분명 시각화 자료가 일상화되어서 인 거 같습니다. 광고와 서비스들에 대한 설명들도 다 데이터 시각화로 표현되는 시대라서 고객과 소비자의 눈높이는 높아만 가고 있습니다. 이것에 이런 데이터 분석으로 정리해서 간략하게 보여줄 수 없을까요?
텍스트만으로는 눈에 안들어오고, 이해가 되지 않네요?
그래서 몇년 전부터 대시보드, 시각화, 그런 관련된 자료에 관심이 높는 것도 사실이다. 하지만 대개는 특정 사용 툴과 제품의 소개와 활용으로 마무리가 되어서, 자칫 목적을 잃어버릴 때가 많았는데, 금번 데이터 시각화는 다양한 툴과 본연의 질문을 놓치지 않고 가고 있다는 것이다.
특히 누구도 사용할 수 있는 구글 스프래드시트의 활용의 실제예가 있어서 바로 업무에 적용도 가능합니다.
"효과적인 데에터 시각화 전략부터 20가지 시가화 도구 사용법까지" 책 표지 우 하단의 내용이 책을 대변하고 있습니다
실무에 바로 적용 가능한 데이터 시각화 방법
데이터 시각화 규칙
실제 사례들
원형 차트
막대 차트
수평 막대 차트
논리적 배열
중요한 부문
테이블 디자인 원칙
지도 관련
내러티브 작성
데이터 시각화 실제 활용서입니다. 여러모로 실무에 도움이 될 거 같습니다. 사무실 책상 한편에 두고 두고 필요할 때만다 참조할 만 한 책입니다.
데이터가 넘쳐나고 있다. 아주 많이. 많아진 만큼 사용되는 곳도 부지기수다. 그리고 어려웠던 내용들이 사용되는 곳이 많아지면서 조금씩 대중화(?)가 되는 듯하게 느껴지는데 어려운 툴이 아닌 주변에서 쉽게 접할 수 있는 툴을 사용해서 데이터를 시각화해서 사용하는 일이 쉬워지고 있다는 생각도 든다. 핸즈온 데이터 시각화는 데이터의 시각화를 위한 길라잡이와 같은 책이라 생각된다.
# 데이터 시각화
데이터를 효과적으로 다룰 수 있는 방법에는 어떤 것이 있을까. 아니 어떤 방법과 과정을 거쳐야만 원하는 정보를 정확하게 이해할 수 있도록 전달할 수 있을까. 여러 방면에서 사용되는 데이터는 잘 갈무리되어 정보를 필요로 하는 사람들에게 전달되기 위해 시각화의 과정을 거치게 된다. 대체로 차트나 인포그래픽을 만드는 데 사용되는데 여기저기서 빅데이터라고 떠들고 다녀서 어쩌면 이제는 조금은 익숙해진 분야일 수 있어 보인다. 하지만, 여전히 데이터를 다루는 일은 어렵다. 잘못된 혹은 나쁜 방향으로 의도된 데이터는 그걸 접하는 이들에게 잘못된 정보를 전할 수 있기 때문이다.
정보를 다루는 사람도, 접하는 사람도 바른 지식을 사용해서 정확한 척도를 가지고 접하고 전달해야 하는데 이런 것들은 아무래도 전문적인 지식과 전문적인 툴을 사용해야 신빙성이 높아질 것 같은 생각이 든다. 일반인은 이런 전문적인 영역에서 데이터를 접하거나 다룰 일은 거의 전무하리라 본다. 그렇다고 무턱대고 달려들 수도 없고. 이 책은 이렇게 접근하기 어렵다고 생각하는 사람들, 데이터를 어떻게 다루어야 하는지 알고 싶은 사람들이 보면 좋을 것 같다. 바로 나 같은 사람들.
# 핸즈온 데이터 시각화
핸즈온 데이터 시각화에서는 데이터를 다루는 방법에 대해 차근차근 알려주고 있다. 그리고 어려운 툴이 아닌 흔하게 접할 수 있는 무료 툴들을 기준으로 설명해주고 있기에 좀 더 어렵지 않게 다가갈 수 있을 것 같다. 책에서는 데이터에 대해 정말 다양한 것들을 다루고 있다. 데이터 수집을 위해 다루어야 하는 도구부터 시작해서 트렌드까지 차트를 그리는 방법과 주의점까지 데이터에 따라 적절한 차트에 대한 안내도 해주고 있다.
데이터에 대한 기초적인 부분을 배우며 데이터를 처리하는데 필요한 기본적인 마인드와 습관 등에 대해서도 알려주고 있어 무분별하게 만들어낼 수 있는 데이터에 대한 주의도 주고 있기 때문에 이제 데이터에 관심을 가지기 시작한 사람들에게 좋은 가이드 북이 되지 않을까 생각된다.
상기 표는 책에서 다루고 있는 도구들과 해당 도구를 다루는 장에 대한 내용이다. 도구 항목에는 데이터와 관련된 일을 하지 않더라도 IT와 관련된 일을 하고 있는 사람들은 한 번씩 들어봤을 도구들이 나열되어 있는 것을 알 수 있는데 그만큼 대중적인 도구를 사용해서 도입 장벽을 낮추고 있는 부분이 가장 마음에 들었다. 구글 스프레드시트, 구글 지도, 깃허브 등은 아주 친근한 도구들이 아닐까 생각된다. 만약 웹 개발과 관련된 일을 한다면 Chart.js, 하이차트에 대해서도 알고 일부는 실제로 사용해본 사람들도 있을 것 같다.
핸즈온 데이터 시각화는 이처럼 쉽게 접근 가능한 도구들을 사용하여 기초적인 부분부터 시작하고 있기 때문에 전혀 생소하게 느껴지는 부분도 있었고 데이터를 수집하기 위해 사용하는 툴도 주변에서 인터넷만 된다면 쉽게 사용 가능한 툴을 위주로 하고 있기 때문에 툴 자체를 사용하는 건 크게 어려울 것이 없었다. 데이터를 다루기 위해 사용되는 방법을 배울 수 있어 많은 도움이 되었다.
# 후기
핸즈온 데이터 시각화는 20가지라는 도구를 사용하여 데이터를 시각화해서 효과적으로 전달하는 방법을 다루고 있다. 처음 접하는 사람들은 생소한 느낌과 어려움을 느낄수도 있겠지만 천천히 책을 따라 하면 많은 부분을 가져갈 수 있을 것이라 여겨진다. 그리고 무엇보다도 입문자에게는 어려울 수 있을 것 같다고 생각되지만, 데이터를 다루는 것에 많은 관심이 있는 사람이 어떤식으로 접근해야 좋을지 모를 때 접하면 좋은 책이라 생각된다.
데이터 시각화는 단순히 데이터를 가지고 그래프를 그리는 행위가 아니다. 데이터 시각화는 데이터에 기반한 분석과 주장을 더욱 효과적으로 전달하기 위한 한 방법이다. 텍스트만으로는 전달하기 힘든 통찰은 차트, 지도 등과 결합하여 더욱 강한 설득력을 가진다.
핸즈온 데이터 시각화
이렇게 단순히 차트를 그리는 것을 넘어 데이터 시각화에 대한 이론부터 차근차근 다루고 있는 핸즈온 데이터 시각화 는 2020년 경부터 이미 저자들이 인터넷 상에 책 내용을 무료로 공개하여 화제가 된 적이 있는 데이터 시각화 강의 교재이다. (독자의 편의성을 위해 실물로도 판매가 되고 있는데, 2022년 판매 금액은 전액 우크라이나 구호 재단에 기부된다고 하여 더욱 의미가 깊은 책이다.)
전 독자층을 배려한 구성
이 책은 데이터 시각화에 대한 올바른 접근을 위한 이론과, 주로 구글 스프레드시트, 태블로 등의 도구를 활용한 실습 예제로 이루어져 있다. 또한 자바스크립트 기반의 Chart.js, 나 Highcharts 같은 기술의 경우, 코딩이 익숙하지 않은 독자층을 위해 코드를 작성하지 않고도 실습을 진행해볼 수 있도록 한 점이 눈길을 끈다.
의미있는 스토리를 전달하기 위한 시각화
이 책에서 가장 도움이 많이 되었던 부분을 뽑자면, 책의 후반부에 기술된 시각화를 통해 정보를 왜곡된 시각화의 사례와 편향 등을 다룬 부분이다.
우리는 시각화를 통해 효과적으로 정보에 기반한 주장을 할 수도 있지만, 의도적으로 왜곡된 정보를 전달할 수도 있다. 시각화를 통해 거짓말을 할 수 있는 방법에는 여러가지가 있다.
변화를 과장하거나, 변화를 축소하여 보여준다.
비율을 의도적으로 조작하여 보여준다.
세로축을 여러개 사용하여 혼돈을 준다.
이러한 부분을 인지한다면, 시각화를 통해 생길 수 있는 오해를 방지하고 보다 객관적인 관점을 유지할 수 있을 것이다.
마무리하며
업무를 직접 진행하며 한 경험에 빗대어 본다면, 데이터 시각화는 사람마다 보는 관점이 달라 생각할 수록 어려운 영역이었다. 저자의 생각도 마찬가지이다. 하지만 시각화의 여러가지 사례와 안티 패턴을 소개하면서 읽는 이로 하여금 효과적인 데이터 시각화란 무엇인지 생각해볼 수 있는 능력을 키워주려고 하는 것이 이 책의 목적이라고 할 수 있다. 데이터 시각화는 절대적인 정답이 없다. 다만 저자는 이렇게 말한다.
"학습자로서 여러분이 해야할 일은 문제에 대한 단 하나의 정답만을 고수하지 않고, 계속해서 더 좋은 답을 찾는 것입니다."
데이터 시각화라면 차트나 그래프를 통해 데이터를 더 보기 좋고 이해하기 쉽게 만드는 일이라고 단편적으로 생각했던 나에게 이 책은 예상보다 훨씬 더 넓은 시각화의 세계를 알려줬다. 많은 교육 기관에서 데이터 시각화 입문 교재로 이 책을 활용한다고 하는데, 책의 구성뿐만 아니라 내용이 교과서로 사용할 정도로 자세할 뿐만 아니라 정말 교과서에서나 볼법한 주제를 반복적으로 알려주고 있다는 점에서도 의외였고 좋았다.
책의 구성은 총 4부로, 1부 기본 기술에서는 도구 및 데이터를 이용해 스토리를 구상하는 기초, 2부 시각화 구축에서는 난이도가 낮은 도구로 실습, 3부 코드 템플릿과 고급 도구에서는 코드를 직접 다뤄야 하는 정도의 난이도가 높은 도구로 더 다양한 시각화를 소개, 4부 진실하고 의미 있는 스토리 전달하기에서는 이 책에서 반복적으로 이야기하는 데이터를 이용해 진실하고 의미 있는 스토리 전달에 대해 설명한다.
가디언이나 뉴욕 타임스의 사례가 아니더라도, 이제 한 번 만들면 변하지 않는 시각화가 아니라 사용자와의 인터랙션이 기본이 되면서 기술적인 요소는 전보다 훨씬 더 중요해졌고 앞으로도 3D뿐만 아니라 AR, VR 같은 분야를 생각하면 시각화에서도 기술의 중요성은 점점 더 높아져만 갈 것이 확실하다. 하지만 저자는 일관되게 진실한 이야기를 전달하는 스토리를 구성해야 한다고 말한다.
초반에 처음 소개하는 지도도 부의 불평등에 대한 지도를 어떻게 전달하느냐에 따라 둘 다 진실을 전하지만 느낌이 달라지고 중요하게 생각하는 부분이 변한다는 걸로 시작한다. 테니스 스타 세레나 윌리엄스가 겪었던 흑인 여성에 대한 차별이나 유명한 메르카토르 도법의 문제점 등 데이터 자체의 문제, 알고리즘의 편향성, 시각화가 유도하는 의도한(혹은 의도치 않은) 인식의 문제 등을 알려주고, 데이터 시각화가 왜 중요하고, 또 어떤 면을 전달해야 하는지 설명한다. 또 다른 기술들도 마찬가지이지만, 시각화 기술 역시 계속 발전하므로, 단 하나의 정답만 고수하지 않고 진실을 보여주기 위한 방법을 지속적으로 찾아야 한다고 주장한다.
좋은 기술을 알려주면 악용하는 일이 항상 발생한다. 책에서 차트를 사용해 속임수를 쓰는 방법도 설명하기 때문에 어쩌면 그렇게 저자의 의도와는 반대되는 결과를 가져올 수도 있다. 하지만, 시각화의 기술과 그 파급력, 또 그래서 어떤 마음을 가지고 기술을 대해야 할지까지 같이 작성한 걸 보면, 저자는 좋은 사람이기도 할 거란 생각이 든다. 다양하고 좋은 시각화 기술만 볼 거라고 생각한 나에게 저자는 시각화도 데이터를 다루는 일이므로 역시 항상 편향, 편견을 조심해야 한다는 점을 알려줬다. 생각보다 더 좋은 책을 읽게 되어 기분이 좋다.
한눈에 들어오는 차트와 지도는 글보다 강력하다. 문서가 글로만 빼곡히 채워져 있으면 사용자의 집중력을 저하시킬 뿐 아니라 설득력도 약해지기 마련이다. 하지만 적절한 타이밍에 등장하는 시각화된 데이터는 사용자의 주의를 환기시키고 주장을 더욱 강력하게 만든다.
이 책에서는 웹에서 제공하는 무료 시각화 도구를 이용해 데이터의 스토리를 생생하게 전달하는 방법을 설명한다. 데이터를 대화형(인터랙티브) 차트와 지도로 시각화하는 과정을 통해 데이터에 맥락과 스토리를 덧입혀 주장에 설득력을 더하는 효과적인 방법도 안내한다. 신뢰할 수 있는 데이터를 활용해 가치 있는 차트를 만들다 보면 자연스럽게 다양한 데이터로 만들어진 차트를 파악하는 안목도 생겨날 것이다.
라고 교보문고가 말하더라.
# 이 책의 특징
1. 데이터 자체에 대한 집중
우선 데이터에 관해서는 파이썬에 집중된 서적이 많은데 이 책은 GUI를 갖춘 도구를 이용해 그냥 사용한다.정말 간단하게 데이터 시각화를 한다.난이도가 낮아보이는게 특징이다.
2. 구성
우선 책이 두껍다. 그만큼 내용이 많다는 말이다.실제로 다루는 데이터 유형에 대해서 모두다 언급하고 실습하는 느낌이다. 그만큼 충실하다. 내용도 많다.
3. 용어설명
데이터에 익숙한 나라서 그런지는 몰라도 그렇게 어려운 책은 아니다.
대상 독자조차도 그렇게 전문지식을 필요로 하는 사람이 아니다.
4. 내용이 그렇게 어렵지 않음
하지만 실제로 이것을 실무에 적용을 바로 한다기보다는 어떤 느낌으로 접근해야 하는지 방향성과 같은 것들을 알려준다고 보면 된다.
#후기
솔직히 데이터 시각화 하라면 맨날 파이썬 pyplot 뭐 해가지고 뭐 sead...하고 맨날 무슨 라이브러리 해가지고 했었는데 그것보다 쉽게 접근할 수 있는 방법을 알려준다. 초보에게 좋고 데이터 분야를.. 이제 접은 나에게도 좋다. 사실 데이터 시각화라는 것이 중요한 이유가 설득력 때문인데.. 말로 하는 것보다 보여주는 것이 낫다고.. 내 100마디 말보다 1개의 차트 하나가 더 셀 수가 있다. 그럼에도 쉽게 만들 수 있다? 그렇다면 이제 내 말에는 설득력이 조금 더 좋아진다는 말과 같다.한 번 이 책으로 내 말에 근거를 만들어보자.
<핸즈온 데이터 시각화>는 제목 그대로 "직접 해보는" 데이터 시각화에 대한 책입니다. 하지만 단순 몇 가지의 예제만을 가지고 지루하게 반복하지 않고, 데이터 시각화에 대한 철학부터 시작해 다양한 툴을 소개하고, 다양한 시각화 예시를 여러 가지 툴을 활용해 장-단점을 비교해가며 최종적으론 효과적인 데이터 스토리의 전달 방법까지 깔끔하게 소개해 주고 있습니다.
지금 당장 데이터의 시각화를 처음 시도해보는 초보부터, 몇몇개의 플랫폼이나 툴을 활용한 시각화 전문가들까지도 다양한 방법으로 읽어가며 좋은 예시들을 배울 수 있는 책이라 생각됩니다. 이제 막 시각화에 입문한 사람은 첫 장부터 차근차근 읽어가며 데이터 스토리에 대한 철학부터 시작해 다양한 툴과 다양한 시각화 방법, 배포하는 방법까지 익혀가는 것을 추천드리고 싶습니다. 또한 이미 충분히 시각화에 대한 이해가 있으신 분들이라면 새롭게 익혀보고자 하는 툴이나 시각화 방법 등에 대한 단물만 맛보듯이 즐길 수 있도록 구성되어 있습니다.
개인적으로 약간의 아쉬운 점은 Python을 활용한 시각화 예시가 없다는 점 이었습니다. 물론 본격적인 이야기를 하게 된다면 Python의 시각화 이야기는 책의 분량을 2~3배 이상 늘려도 부족할 수 있습니다. 또한 직접적인 코드가 등장하게 되면, 그것이 아무리 간단하다고 알려진 Python이더라도 해당 도메인에 익숙하지 않은 사용자가 가벼운 마음으로 시작했다가 무거운 마음으로 책을 덮었을 것 같습니다.
비록 가장 원했던 시각화 기법에 대한 책은 아니었지만, 데이터 스토리의 본질에 대해 조금이나마 엿볼 수 있었고 내가 알고 있던 방법 외에도 더 많은 시각화 기법이나 툴, 그리고 전혀 경험해보지 않았던 데이터 스토리의 배포 과정까지 가볍게 익힐 수 있는 책이었습니다.
이 책의 저자는 두분인데, 데이터시각화 과정 교수님과 지리정보과학석사과정 디자인 기술 연구소 연구원이고 역자는 한분인데 "단단한 머신러닝"의 역자이신 분이 번역한 책이다. 저자의 소개글 부분에 보면 모두를 위한 데이터 시각화 라는 2016년에 나온 책을 발전시킨 버전이라고 한다. 그래서 그런지 정말 쉽게 자세히 잘 구성되어 있다. 거의 80%에 가까운 내용이 컬러로 실습을 하는 방법에 대해 설명하고 있다. 이론을 설명하는 부분에서는 찰스 윌런의 "벌거벗은 통계학"이나 대럴 허프의 "새빨간 거짓말, 통계" 와 비슷한 기조를 가진다.
믿을 만한 데이터는 어디서 찾을 것인가?
데이터가 진정으로 나타내는 것이 무엇인가?
- 3장 8절 마치며 中
책 장점
이 책의 장점은 데이터를 어디서 얻어야 하는지, 데이터의 의미를 어떻게 해석해야 하는지 잘 알려준다. 그러면서도 이 책은 코드를 전혀 활용하지 않는다. 그동안 python, R, JavaScript등 어려운 코드들과 전공용어로 데이터를 어찌하지 못했던 비개발자들도 하나하나 따라해보면 된다. 그러면서 다양하게 주의할 점에 대해서 자세히 알려주고 데이터를 처리하는 자세와 좋은 습관들이 어떤 것인지 아주 자세히 알려주고 좋은 책도 많이 소개해준다.
책 단점
장점일 수도 있으나 이 책은 사실 내용이 너무 많다. 너무 많은 툴들을 소개해주고 있다. 코드가 전혀 없다고는 해도 20가지 이상의 다양한 시각화 도구를 소개하고 있다. 그리고 사실 책 뒷부분에 가면 html이나 iframe 등에 대해서 살짝 소개해주는 데 처음 접하는 사람은 어려울 수 있다. 그리고 한국에만 국한된 데이터를 하면 이해가 더 쉬울텐데 월드 레벨의 데이터를 다루다보니 공감대 형성이 약간 어렵다. 그리고 간간이 아주 사소한 오타(ex. 단계 --> 단게)도 보인다.
데이터 스토리가 어떻게 우리의 사고방식을 변화시키고,
우리의 습관을 바꾸고 우리의 다음단계에 영향을 미치는지
- 15장 1절 데이터 스토리 中
책 구성
1장 1절과 15장 1절이 수미상관으로 이어진다. 스토리보드에 내러티브 작성하기 이다. "단단한 머신러닝"처럼 구성이 아주 타이트하고 꽉 차있다.
책 읽은 뒤 나의 견해
사실 우리 모두는 데이터를 시각화해서 보여주지 않아도 상식 수준에서 대략적으로 비슷한 정답을 알고 있다. 그 정답이 실제 정답인가? 앞 사람을 따라한 정답은 아닌가? 그러나 비슷한 정답과 구체화된 정답과 앞사람에 의해 의도된 정답 중에 어느 상황인지 명확히 구분하는 것은 대부분 귀찮아한다. 정말 오래된 용어로 "정보화시대" 이다. 이 정보의 생산자는 그 동안 누구였는가? 실제 정답을 가지고 만들어진 정보 가 없다면 내가 만들어보는 것도 물론 힘들테지만 멋진 일이고 가치있는 일이라고 생각한다. 그런 의미에서 정보를 시각화하고 싶은 비개발자들에게 이 책을 추천한다.
데이터 분석의 중요성에 대해서는 이제 굳이 설명하지 않아도 될 정도가 되면서 분석을 위한 도구도 다양해졌고, 오픈 소스를 통해 무료로 사용할 수 있는 도구 또한 많아져서 너무 전문적인 경우만 아니라면 일정 기간 학습을 통해 적어도 기본적인 분석은 이제 누구든 할 수 있게 되었다. 그렇다 보니 이제는 각종 툴을 활용해 분석된 자료들을 어떻게 표현할 것인가로 그 중요성이 옮겨가는 듯 하다.(사실 이 부분은 꼭 데이터 분석이 아니어도 중요하기는 하지만..)
이 책은 총 4부로 구성하고 있다. 1부에서는 데이터 시각화에 앞서 사전준비에 해당되는 내용으로 구성하고 있다. 수집하고 분석한 자료를 시각적으로 표현하기 위해 어떤 도구들을 이용할 수 있고, 어떻게 선택할 수 있는지, 그리고 그 과정에서 흩어지거나 불필요한 자료들(책에서는 '지저분한 데이터'로 표현되고 있다.)을 어떻게 정리하면 좋은지 등을 스프레드시트 툴(이 부분에서는 본격 시각화 전 단계인 데이터 정리 단계라 스프레드시트를 활용한 설명이 많다.)의 실제 적용 화면 그림을 통해 친절하게 설명해 주고 있다. 아래는 이 책 속에서 언급되고(다루고) 있는 도구들을 책의 해당 위치를 도표화 한 것으로 각 페이지마다 해당 URL 다운 후 설치법, 기본 사용법 등을 친절하게 안내하고 있다.
[사진] 본 책의 각 장에서 다루는 추천 도구 정리표 (p.48)
(* 위 사진은 본책 p.48 표1-1로 리뷰에서는 동일 내용을 한빛출판네트워크 책 소개란에서 캡쳐 후 사용하였음)
2부에서는 본격적으로 시각화를 실습하는 단계로 들어간다. 서두에서 저자가 별도의 사전 지식 없이 컴퓨터에 대한 기본적인 이해로 충분히 이해가 가능하다는 말처럼 툴의 기본 사용법은 드래그 앤 드롭 방식이 많았다. 그런 도구를 활용해 차트와 테이블을 작성하는 방법과 지도에서 분석된 데이터를 시각화 하는 방법을 설명하고 있다. 뿐만 아니라 2부의 하이라이트는 이렇게 작업화한 것을 웹으로 코드를 복사 하여 임베딩하여 공유하는 방법을 알려주는 부분이다. 단순히 업데이트 뿐만 아니라 수정하는 방법도 알려주고 있다.
1, 2부에서 무료이고 단순한 방식의 도구를 활용한 설명이 주를 이뤘다. 이러한 도구들은 초보자들에게는 적합하지만 무료 도구이다 보니 옵션 등에서 아무래도 제약이 많다. 3부에서는 유료 도구를 포함한 고급 도구의 사용법과 코드 수정법 등에 대해 설명하고 있다. 3부 끝에서는 보다 고급 스킬의 지도 데이터 변환과 관련한 상세한 설명도 포함되어 있다.
[사진] 데이터를 시각화 할 때 편향을 줄이는 방법을 소개하는 부분 (본책 p.453(위), 459(아래))
마지막 4부에서는 데이터 편향과 관련된 내용을 시각화 과정에서 어떻게 줄일 수 있는지 다루고 있다. 시각화와 관련된 도서는 많지만, 실습에 직접 적용하며 설명한 책은 드문 것 같아 이 부분이 이 책의 하이라이트가 아닐까 생각된다. 먼저 어떤 것이 잘못된 것이고, 어떤 것이 진실한 시각화인지에 대한 간략한 설명 후 과장하거나 축소 혹은 왜곡하는 방식으로 차트로 거짓말하는 방법을 위 사진(아래)과 같이 다양한 예시 그림과 함께 그 이유를 설명하하고 있다. 그리고 이 책에서 '지도 데이터 시각화'부분이 책 전체 내용 중 거의 1/3 가량을 차지하고 있는데, 4부에서 역시 지도 부분은 따로 다루고 있다. 이런 예시 후에 어떻게 하면 데이터 편향을 인지하고 줄일 수 있는지도 설명해 주고 있다.
그리고 많은 분량은 아니지만 권말에 약 10페이지 정도를 할애해 OS별 도구별로 작업 중 자주 발생하는 문제를 해결하는 방법도 따로 모아서 설명하고 있어 특히 데이터 시각화를 주 업무로 하고 있는 분들에게는 아주 유용한 책인 것 같다. 다만, 이 책이 분류가 '초급'으로 되어 있는데, 개인적으로 생각하기에 중급에 더 가깝지 않나 싶다. 초보가 보기에는 시간 투자가 많이 필요해 보인다. 그렇지만, 데이터 편향 부분 등 기존 시각화에서 다루지 않는 내용 등을 포함해 많이 차별화 하려는 노력이 보인다. 특히 지도 데이터 시각화에 관심있는 분이라면 더 도움이 될 것 같다.
디지털 트랜스포메이션이라는 단어가 클리셰처럼 느껴질 정도로 많은 기업들이 데이터 기반의 의사결정을 위한 비즈니스 구조 전환을 시작했음에도 불구하고 현장에는 여전히 기본적인 데이터를 다루는 일에도 어려움을 느끼는 사람들이 많습니다. - '옮긴이의 말'에서
서평을 쓰는 본인이 일하고 있는 팀 명에도 '디지털 트랜스포메이션(Digital Transformation, 이하 DT 또는 DX)' 약어가 들어가는데 옮긴이의 말에 백번 공감을 했다. 정말 이 단어는 클리셰처럼 쓰이지만 정작 단어를 남발하기만 하고 제대로 DT를 알고 쓸 수 있는 사람은 많지 않다.
이 책은 개발자가 아닌, Python이나 R언어 등의 코딩 지식이 없어도 쉽게 따라할 수 있는 데이터 시각화 입문서이다. 실제로 많은 교육 기관에서 데이터 시각화 입문 교재로 이 책을 활용하고 있고, 또다른 견해로는 데이터 기반 보고서를 작성하고자 하는 리더들에게도 이 책을 추천하고 싶다. 데이터에 관한 기본 개념부터, 데이터에 대한 거짓과 편향 그리고 개인 데이터 관련 논쟁 (데이터에 관한 윤리/법률적 트렌드) 까지 정리되어 있는 꼼꼼한 기본서라고 할 수 있다.
잭도허티(Jack Dougherty)는 교육학을 전공한 교수로 통계학을 전공하지는 않았으나 역사학 교육등에 시각화를 활용하고 있고
일리야 일랴얀코우(Ilya Ilyankou)는 컴퓨터공학, 스튜디오 아트를 복수 전공하였으며 현재 영국 리즈 대학에서 지리 정보 과학 석사 과정을 밟고 있다고 한다.
저자의 약력에서 살펴볼 수 있듯 책의 내용은 기술쪽에 치우친 내용이 아닌 실제 업무에서 많이 사용하는 예제를 적용하여 현업자에게 많은 도움이 되어 보인다.
책 내용은 전체적으로 총 515페이지 가량의 조금 두꺼운 분량으로 보이며 책상앞에 두어도 큰 부담이 되지는 않아 가까이 두고 활용할 수 있어 보인다.
본문은 총 15장으로 구성되어 있으며 15장 중,
1장은 데이터 시각화와 관련한 일반적으로 알아야 할 내용과 본 책에 대한 전반적인 안내, 도입에 관한 내용을 다룬다.
2장은 구글시트, 리브레 오피스, MS엑셀 등의 스프레드 시트등을 통해 편리한 시각화 방법을 소개하며 구글 시트에 지오코딩하기, 구글 설문지로 데이터 수집하기, 관계형 데이터 베이스 활용하기 등의 비교적 새로운 내용을 소개함과 동시에 스프레드 시트의 전통적인 방법에 대해서도 간략히 소개하고 있다.
3장은 데이터 이슈를 설명한 장으로 방대한 데이터를 어디서 쉽게 얻으며 이에 대해 어떤 법적 문제를 고려하여 활용할 지에 대해 설명하고 있다.
4장은 원시 데이터에 대한 전처리 방법을 설명하고 있으며 구글 시트 스마트 클린업 기능을 통해 부정확한 데이터의 수정을 용이하게 하는 방법을 소개하고 있는데 통계학을 전공하거나 현업에 오래 종사하지 않아도 쉽게 데이터 셋팅에 대해 쉽게 접근하는 방법을 보여주고 있다.
5장은 통계학 기초와 관련한 내용을 가볍게 다루고 있으며 통계학을 전공한 사람들에겐 이미 알고 있는 내용을 정리하게 하며 전공하지 않은 사람에겐 시각화에 대한 기본적인 사항을 전해주고 있다.
6장은 앞부분에서 전통적인 시각화 패턴인 꺾은선, 막대그래프, 파이차트, 히스토그램, 선차트, 산포도등과 더불어 누적 막대차트, 필터링된 선 차트, 누적 영역 차트, 범위 차트, 버블 차트, 스파크 라인등의 새로운 패턴도 설명하고 있다. 그리고 세부적으로 이러한 전통적인 패턴의 잘못된 사용례에 대한 미세한 지적을 통해 평소 습관적으로 사용하지만 누구도 지적하지 않았던 내용에 대해 친절히 알려주고 있다.
한편, 6장에서 그래프를 그리는 도구로 구글 스프레드 시트를 소개하고 있는데 제목 'Hand-On' 그대로 하나 하나 개인 교습을 받는 것처럼 친절하게 그래프를 그리는 방법을 상세히 설명하고 있는 부분은 이 책의 큰 장점으로 보인다.
7장은 데이터 시각화 교과서에서 일반적으로 다루지만 현업에서 잘 사용하지 않는 데이터를 지도로 시각화 하는법에 대해 설명하고 있는데 여러가지 툴을 통해 제시하고 있다.
8장은 전통적인 도구지만 평소 시각화 이슈와 관련 간과하는 테이블(표) 작성 방법에 관해 설명하고 있다.
9장은 iframe을 코드 태그를 통해 시각화 작업물을 웹 상에 구현 하는 방법을 설명하고 있는데 데이터 과학을 다루다 갑자기 다른 내용으로 비약 되는점은 조금 아쉽지만 더 많은 걸 알려주기 위한 욕심에서 비롯됨을 감안할 때 큰 문제는 아닐듯 보이며 이에 대한 내용이 조금 어렵게 여겨지는 독자들은 개론서 수준의 html 웹프로그래밍 도서를 참고하면 좋겠다.
10장~ 13장 까지 내용은 코드 템플릿과 고급 도구에 대한 내용으로 약간의 난이도가 있는 내용이어 초급자에겐 조금 어려울 수 있는 내용으로 보이며 어렵다고 생각되는 독자는 천천히 다른 컴퓨터 스킬을 보완해 가며 학습해도 좋을듯 싶다.
10장에선 깃허브를 통해 내용을 수정하고 호스팅 하는 내용을 다루고 있으며,
11장은 자바스크립트 라이브러리 중 하나인 Chart.js와 하이차트를 통해 대화형 차트를 작성하며,
12장은 구글 스프레드 시트를 통해 리플릿 맵 탬플릿을 활용하여 다양하고도 아름다운 시각화 방법을 소개하고 있으며,
13장에서는 지도 데이터 변환과 관련한 다양한 방법을 설명하고 있다.
14~15장은 데이터, 컴퓨터 테크닉 보다는 데이터 시각화와 관련한 이슈에 대해 진실하고 의미있는 스토리 텔링 방법, 강력한 의미 전달 방법에 대해 고찰하는 내용을 다루며 책을 마무리 하고 있다.
전체적인 총평은 난이도 초중급으로 보이며 이미 엑셀을 활용하고 있거나 스프레드 시트에 대한 개념이 어느정도 있는 사람에게 적합해 보이며 기본적으로 예제가 일반적인 내용을 위주로 설명되어 있어 일반인이나 초중고등 학생에게도 선행 학습없이 책을 한장 한장 천천히 따라서 실습한다면 어느덧 데이터 시각화에 대한 본 도서는 자기도 모르는 사이 정복되어 있으리라 본다.