메뉴 바로가기 검색 및 카테고리 바로가기 본문 바로가기

한빛출판네트워크

어쩌다 데이터 분석 with 파이썬

판다스로 시작하는 효율적인 데이터 분석 및 시각화

한빛미디어

집필서

판매중

  • 저자 : 김유지(Clary K)
  • 출간 : 2022-09-29
  • 페이지 : 412 쪽
  • ISBN : 9791169210317
  • 물류코드 :11031
초급 초중급 중급 중고급 고급
4.8점 (23명)
좋아요 : 7

파이썬 데이터 분석은 처음EASY?

판다스 핵심 레시피와 예제로 익히는 파이썬 데이터 분석 기초!

 

이 책은 파이썬 데이터 분석을 위해 반드시 알아야 하는 판다스, 넘파이, 맷플롯립, 시본 등 파이썬 핵심 라이브러리를 사용해서 효과적으로 데이터를 분석하고 시각화하는 방법에 대해 다루고 있다. 파이썬 데이터 분석 입문자를 위해 일반적인 데이터 분석 과정으로 내용을 구성했으며 데이터 분석을 위한 중요한 핵심 함수와 처리 과정을 쉽고 간결하게 설명하고 있다. 마지막으로 넷플릭스 데이터셋으로 실무에 적용 가능한 데이터 전처리 및 시각화 과정을 실습해본다.

 

 

상세이미지_어쩌다 데이터 분석 with 파이썬.jpg

 

김유지(Clary K) 저자

김유지(Clary K)

동덕여대에서 미디어 디자인, 국민대 테크노디자인대학원에서 인터랙션 디자인을 전공했다. UX 컨설팅 회사, 외국계 IT 기업, IT 스타트업 등 다양한 환경에서 일해온 UX/UI 기획자로 적응력이 빠르고 새로운 도전을 좋아한다. 몇 년 전 자기계발 및 업무 역량 성장을 위해 파이썬 프로그래밍과 데이터 분석 스터디를 시작했고 정부 R&D 과제 및 금융 서비스 프로젝트에도 참여했다. 현업에 데이터 분석 결과를 다양한 관점으로 적용하기 위해 부단히 노력 중이다. 온라인에서 Clary K라는 필명으로 활동하고 있으며 취미로 블로그에 파이썬 지식과 데이터 시각화 관련 포스팅을 하고 있다.

 

블로그: blog.naver.com/youji4ever

1장. 데이터 분석 준비

1.1 데이터 분석의 세계

1.2 아나콘다 설치 및 주피터 노트북 실행

1.3 파이썬 핵심 정리

1.4 파이썬 데이터 분석 주요 라이브러리

1.5 데이터셋

 

2장. 데이터 분석 기본

2.1 넘파이 기본

2.2 판다스 기본

2.3 데이터 로드와 저장

2.4 데이터 확인

2.5 데이터프레임의 컬럼을 다루는 테크닉

2.6 데이터 인덱싱(데이터프레임의 값 선택)

 

3장. 데이터 정제와 응용

3.1 데이터 필터링과 정렬 테크닉 

3.2 결측값 처리

3.3 이상값 처리

3.4 문자열 데이터 처리

3.5 카테고리 데이터 처리

3.6 람다를 활용한 데이터 처리 응용 예제

 

4장. 데이터 병합과 재형성

4.1 데이터 병합

4.2 데이터 재형성과 피벗

4.3 데이터 병합 후 처리

 

5장. 데이터 집계와 그룹 연산

5.1 그룹 연산의 이해 

5.2 피벗 테이블과 크로스탭 활용

 

6장. 날짜시간 데이터 처리

6.1 날짜시간 데이터 타입

6.2 날짜시간 데이터 인덱스

6.3 Time/Date 컴포넌트

 

7장. 데이터 시각화

7.1 맷플롯립 데이터 시각화

7.2 시본 데이터 시각화

 

8장. 데이터 분석: EDA 실습

8.1 데이터 첫 탐색

8.2 데이터 전처리

8.3 데이터 시각화 기초

8.4 데이터 시각화 고급

8.5 실습을 마치며

개발 환경 준비 + 판다스 핵심 기능 + 데이터 시각화 + EDA 실습

 

판다스는 파이썬 환경에서 데이터를 분석하기에 최적화 된 오픈소스 라이브러리이다. 이 책은 파이썬 데이터 분석을 위한 준비 과정과 알아야 하는 개념 그리고 판다스 핵심 기능과 데이터 시각화 기초까지 다룬다. 또한 파이썬 데이터 분석에 필요한 핵심 레시피를 익힌 뒤 넷플릭스 데이터셋으로 실무도 경험해본다. 현업에 적용할 수 있는 EDA를 실습하고 데이터 간 유의미한 상관관계를 분석하며 데이터 분석 역량을 기를 수 있도록 도와준다.

 

 

★ 이 책의 구성

 

STEP1 데이터 분석 준비 & 기본

  • 개발 환경 구축하기
  • 파이썬 기본 내용 
  • 파이썬 핵심 라이브러리 소개 및 기능 설명

STEP2 데이터 정제와 응용

  • 데이터 필터링/정렬 테크닉
  • 결측값/이상값 확인 및 처리

STEP3 데이터 병합/그룹 연산

  • 데이터 병합
  • 테이블 형식 데이터 재배치/피벗
  • groupby를 활용한 그룹별 요약 및 집계
  • 피벗 테이블과 크로스탭 활용

STEP4 시계열 데이터 처리

  • 날짜시간 데이터 타입
  • 날짜시간 데이터 인덱스

STEP5 데이터 시각화

  • 맷플롯립 기본 핵심
  • 많이 활용되는 시본의 주요 그래프

STEP6 실전 연습

  • EDA 실습: 넷플릭스 데이터셋
  • 데이터 전처리 기법 적용 및 데이터 시각화 작업

 

1장_데이터 분석 준비

데이터 분석이 무엇이고 어떻게 진행되며 어떤 역량이 필요한지 살펴본다. 그리고 파이썬 데이터 분석을 실행하기 위한 개발 환경을 구축한 뒤 이 책을 읽는 데 필요한 파이썬 기본 내용과 핵심 라이브러리에 대해 알아본다.

 

2장_데이터 분석 기본

파이썬에서 데이터 분석을 하기 위해 가장 필수적으로 알아야 할 라이브러리인 넘파이

와 판다스의 기본 사용법을 학습한다. 데이터를 불러오고, 생성하고, 선택하고, 골라내고, 삭제하고 새로운 모양으로 변경하는 등 기초적인 데이터 처리 방법을 배운다.

 

3장_데이터 정제와 응용

데이터를 처리하고 가공하는 다양한 방법을 몇 가지 카테고리로 분류해서 배운다. 먼저 상세한 조건으로 데이터를 추출하거나 다른 함수를 활용하여 데이터를 필터링하는 기법과 정렬 테크닉을 알아본다. 그다음 결측값이 생기는 원인과 판다스로 결측값을 확인하고 처리하는 방법에 대해 익힌 뒤 이상값을 확인하고 처리하는 방법을 살펴본다.

 

4장_데이터 병합과 재형성

서로 다른 데이터프레임을 연결하고, 합쳐진 데이터프레임을 다시 다른 모양으로 변경하는 학습을 한다. 판다스의 함수를 통해 흩어져 있는 데이터를 연결하고 병합하는 방법을 익힌다. 그리고 테이블 형식의 데이터를 다양한 방식과 기준으로 데이터를 재배치하거나 피벗하는 방법을 학습한다. 마지막으로 데이터 병합이나 재형성 후의 처리 방법에 대해 다룬다.

 

5장_데이터 집계와 그룹 연산

판다스의 groupby 개념과 활용법을 배우고 데이터를 그룹별로 나누어 요약 및 집계를 해본다.

또한 판다스에서 피벗 테이블과 그룹 빈도를 계산하는 크로스탭을 활용한 분석에 대해서 알아본다.

 

6장_날짜시간 데이터 처리

판다스에서 사용하는 시계열 데이터 종류인 datetime과 관련하여 날짜와 시간에 대한 기초

지식을 학습한다. 날짜시간 데이터를 다룰 때 기초적으로 알고 있어야 할 데이터 타입에 대해 배우고 인덱스와 관련있는 몇 가지 주요 처리 방법에 대해 익힌다.

 

7장_데이터 시각화

대표적인 파이썬 데이터 시각화 라이브러리인 맷플롯립과 시본을 알아본다. 먼저 파이썬으로 데이터 시각화를 할 때 필수적으로 알아야 할 맷플롯립의 핵심을 학습한다. 그다음 많이 활용되는 시본의 주요 그래프에 대해 배워본다.

 

8장_데이터 분석: EDA 실습

앞에서 배운 기술을 어떻게 사용하고 응용되는지 익히기 위해 데이터 분석 실습 과정을 진행한다. 분석하려는 데이터의 특징을 파악하여 적합한 전처리 기법을 적용한 후 데이터를 더 잘 이해할 수 있도록 다양한 시각화 작업을 해본다.

 

 

★ 대상 독자

 

이 책은 파이썬을 이용한 데이터 분석에 대해 관심 있는 입문자를 대상으로 한다. 기본적으로 파이썬 기초를 알고 있다는 전제하에 설명하고 있으나 파이썬을 접해보지 못한 독자를 위해 파이썬 핵심 기본 내용을 수록했다. 

 

 

★ 예제 소스

 

https://github.com/claryk0520/bumping-into-data-analysis 

 

 

추천사

 

요즘은 데이터 분석 전문가가 아니더라도 자기 분야의 데이터 분석을 스스로 하는 시대이다. 다만 일반인도 처음부터 따라 하기만 하면 데이터 분석의 기초를 갖출 수 있는 책이 많지 않아 아쉬움이 있었다. 이 책은 파이썬과 데이터 분석을 처음 접하는 입문자가 기본서로 삼아 공부하기에 적합한 내용으로 구성되어 있으며 비전문가의 눈높이에 맞는 적절한 예제로 쉽게 설명하고 있다. 특히 공식 문서에는 나오지 않지만 알아두면 좋은 팁과 초보자가 하기 쉬운 실수에 대한 조언이 가득 담겨 있다는 것이 이 책의 가장 큰 장점이다.

김정용 - SK하이닉스 | AI 엔지니어

 

개발, 마케팅 등의 업무를 담당하는 사람뿐 아니라 일반인도 데이터를 다뤄야 하는 시대이다. 이 책은 초보자도 쉽게 데이터 분석에 입문할 수 있도록 도와주는 백과사전이다. 데이터 분석을 위한 환경 구성부터 기초 및 고급 지식을 습득할 수 있는 다양한 예제가 마련되어 있으며, 마지막 장의 EDA 실습을 통해 실전에 빠르게 적용할 수 있도록 도와준다. 데이터 분석의 기초를 최대한 빠르게 습득함과 동시에 실전에 적용하고자 하는 독자에게 이 책을 강력히 추천한다.

남상구 - 인텔 | 소프트웨어 엔지니어 

 

파이썬을 이용한 데이터 분석과 머신러닝을 배우기 시작하면 어렵게 느껴지는 고비가 몇 군데 있다. 그중 하나가 판다스를 사용해 데이터를 다룰 때이다. 처음엔 판다스를 사용해 데이터를 읽고 쓰면서 그 편리함과 예쁜 표로 시각화된 모습을 보며 신세계를 만난 기분이 들지만 본격적으로 데이터를 가공하고 집계하다 보면 데이터 앞에서 작아지는 자신을 보게 된다. 판다스는 짧은 시간 동안 집중해서 익히는 라이브러리가 아니다. 다루는 데이터에 따라 각기 다른 대응법을 끊임없이 배워야 하는 존재이다. 이 책은 판다스의 중요한 기능이 적절한 예제에 함께 간결하게 정리되어 있다. 판다스를 빨리 익혀야 한다는 조바심은 잠시 내려두고 이 책을 통해 판다스의 필요한 기능을 하나씩 배워보기 바란다.

이제현 - 한국에너지기술원 플랫폼연구센터 | 선임연구원

 

데이터 분석, 어디서부터 어떻게 무엇을 배워야 할지 참 막막하게 느껴질 것이다. 이런 고민을 가지고 있는 독자에게 알맞은 설루션으로 이 책을 추천한다. 입문자에게 파이썬 핵심 라이브러리 사용법을 비롯하여 필요한 것만 알려주어 학습 시간을 아껴주고, 쉽게 설명하고 있어 데이터 분석의 진입 장벽을 조금이나마 낮춰준다. 책을 덮을 즈음에는 데이터 분석에 대한 자신감이 생기게 될 것이며, 이 책이 데이터 분석가라는 초행길의 믿음직스러운 길잡이가 되어줄 것이다.

하송미 - (주)네피리티 | 데이터 분석 엔지니어

 

프런트엔드 개발자로 성장하고자 하는 독자라면 한 권쯤 꼭 가지고 있으면 좋을 안내서이다. 개발자라는 긴 여정을 시작하는 초심자를 위해 개발 환경 설정부터 현업에서 주로 사용하는 데이터 형태와 타입 그리고 분석 기법을 군더더기 없이 단계별로 예제와 함께 풀어주고 있다. 이 책에서 안내하는 단계별 여정대로 잘 따라간다면 길을 잃을 일 없이 어느새 자연스럽게 데이터 분석을 하고 있는 자신을 볼 수 있을 것이다.

조준호 - 한국고용정보원 | 데이터 분석가

 

이 책은 한 마디로 판다스 기초 백과사전이라고 할 수 있다. 상세한 설명과 다양한 예제를 통해 데이터 분석 초심자가 데이터프레임을 활용한 분석 과정에서 막힐 수 있는 부분을 자세하게 설명해주고 있기 때문에 처음 데이터 분석을 시작하려는 독자에게 추천한다. 또한 다양한 데이터프레임 사용 방법을 숙지할 수 있고 다시 한번 기초를 다지는 기회가 될 수 있기 때문에 데이터 분석을 경험한 독자에게도 많은 도움이 될 것이다.

이단비 - (주)이팝콘 | 데이터 분석가

데이터 분석 과정에 대해 자세하고 쉽게 설명하고 있는 책입니다.

 

데이터를 분석하기 위해서는 먼저 데이터의 특성을 파악하고 가공하는 과정이 필요합니다.

(내 마음에 맞게 예쁘게 다듬어진 데이터를 만나는 일은 매우 드문 일 입니다.)

 

데이터를 살펴보고 내가 원하는 모양으로 만들기 위해서 넘파이, 판다스 등 파이썬 모듈을 주로 사용합니다.

판다스, 넘파이 등을 익숙하게 다룰 수 있어야 쉽게 내가 원하는 대로 데이터를 가공해 볼 수 있습니다.

 

이 책에서는 데이터 로드, 전처리, 집계, 시각화까지 일련의 과정을 정말 친절하게 설명하고 있습니다.

데이터 분석을 시작하거나 판다스, 넘파이 등이 손에 익지 않으신 분들에게는 정말 좋은 도서라고 생각합니다.

 

마지막 부분에 EDA 실습이 있었는데 내용이 조금 짧아서 아쉬웠습니다.

데이터 분석을 쉽고 빠르게 배울 수 있는 책이여서, 추천드립니다.

 

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

최근 국내 데이터 산업의 시장규모는 20조원을 돌파했고 최근 3년간의 연평균 시장 성장률은 11.3%라고 한다. 

 

데이터를 의사결정에 활용하는 산업이 늘어남에 따라 데이터 직군의 수요는 계속 늘고 있다고 하는데 막상 데이터 분석의 실무를 접해볼 수 있는 일은 쉽지 않다.

 

“어쩌다 데이터 분석” 은 저자 본인이 데이터 분석을 밑바닥 부터 공부한 경험을 바탕으로 하여 데이터 분석 과정에 대한 합리적인 학습 과정을 제시 한다. 또한 초심자 때 우선적으로 배워야 할 핵심 내용 및 같이 배우면 좋을만한 내용을 수록 했다.

 

책의 특징 적인 내용은 아래와 같다.

 

#데이터 분석 

친절하게도 데이터 분석의 세계를 설명하는 것으로 시작 한다.

데이터 분석은 정보 또는 인사이트를 도출 하거나 패턴을 찾기 위한 목적으로 분석 언어나 알고리즘을 활용 하여 원본 데이터로부터 결론을 이끌어 내는 작업이다. 데이터 분석 과정을 5단계로 나누어 설명 하고 데이터 분석에 왜 파이썬을 사용하는 지에 대해서도 설명 한다.

 

#파이썬

간단히 파이썬 사용법에 대해서도 설명하지만 정말 간단하기는 하다. 또한 데이터 분석을 위해 사용하는 파이썬의 라이브러리 4대장을 소개 하고 기본적인 사용법 및 활용법을 배운다.

 

- 넘파이 (NumPy) : 산술 계산과 통계 작업의 기본 

- 판다스 (pandas) : 구조화된 데이터를 처리 하는 방대한 기능을 제공 하는 라이브러리 

- 맷플롯립 (matplotlib) : 판다스와 잘 연동되는 기본적인 시각화 라이브러리

- 시본(seaborn) : 맷플롯립을 토대로 돌아가는 고급 데이터 시각화 라이브러리

 

#EDA

EDA는 수집한 데이터가 들어왔을 때, 이를 다양한 각도에서 관찰하고 이해하는 과정으로 데이터를 분석하기 전에 그래프나 통계적인 방법으로 자료를 직관적으로 바라보는 과정이다.

 

최종장에서는 넷플릭스의 데이터를 가지고 EDA 과정에 중심을 둔 데이터 분석 과정을 실습 하는 것으로 마무리 한다. 실제 데이터 분석 과정을 설계하기 전에 반드시 필요한 과정으로 이 과정을 거쳐서 좀 더 효율적이고 적합한 데이터 분석 과정을 설계 할 수 있다. (데이터 분석 과정 설계는 이 책의 수준을 벗어나는 부분이다.) 

 

#추천대상

데이터 입문자에게는 더할나위 없는 선택이다. 혹시 아래 중 하나에 해당한다면 꼭 한번 읽어 보기를 권한다.

 

1) 데이터 직군 커리어를 준비하는 취업준비생

2) 파이썬 기초를 알고 있지만 어떻게 활용 해야 할지를 모르는 초급 개발자 

3) 자고 일어나 보니 데이터 분석을 시작 해야 하는 직장인

 

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.”

데이터분석 하면 R도 있었고, Matlab도 있었고, 다양한 툴들이 있었지만, 그래도 가장 많이 찾는 분석 도구는 '파이썬' 인 것 같습니다. 처리 속도가 C언어 만큼 빠르거나 데이터가 웹 처럼 예쁘게 나오는 것은 아니지만, 그래도 파이썬을 쓰는 이유는 이 책의 제목 처럼 "어쩌다 데이터 분석"을 맡게 되는 전문가가 아닌 사람들을 위해 쉽고 빠르게 분석 작업을 할 수 있기 때문이 아닐까 합니다. 

만약 이미 파이썬 책을 봤다면 챕터 1은 가벼운 마음으로 봐도 좋을 것 같습니다. 

1.5.2의 오픈 데이터셋이 있는데, 데이터를 공부하고 싶은데 막상 처리할 데이터가 없을 때 유용한 오픈데이터셋 홈페이지가 많습니다.  국내에서 개인정보 등 법적인 문제 없이 마음껏 쓸 수 있는 데이터는 공공 데이터 포탈이지만, 외국 사이트의 경우 정말 방대하고 다양한 데이터를 접할 수 있습니다. 

 

2장의 데이터 분석 기본은 numpy와 pandas의 기본을 배웁니다. pandas의 경우 공식문서만 두꺼운 백과사전의 분량이지만, 책에서는 필요한 부분만 핵심적으로 알려줍니다. pandas는 pandas의 방식대로 데이터를 정제 해야 나중에 다중포문으로 데이터를 처리하는 수고를 덜 하게 됩니다.

 

4장은 데이터의 병합이 있는데, 개인적으로 단순한 데이터보다는 1장에서 안내했던 공공데이터로 예시를 했으면 더 좋았을 것 같은 아쉬움이 있습니다

 

6장 날짜시간 데이터 처리는 초보자에게는 정말 유용한 정보가 많이 있습니다. 날짜 및 시간에 관한 처리는 단순히 숫자 계산도 아니고 텍스트 처리도 아닌 것이 자신이 원하는 대로 포맷을 만드려면 처음에는 많이 헤매게 됩니다. 다른 책에서는 이런 시간 데이터 처리를 한 두 장에 간단히 소개만 하는 경우도 있지만, 이 책에서는 6장 하나만으로 이 책을 읽어야 할 이유는 충분합니다. 

 

이 책의 가장 좋은 점은 번역본이 아니라, 글이 쉽게 읽혀지고, 초보자에게도 어렵지 않게 이해할 수 있다는 점입니다. "어쩌다 데이터 분석을 하게 되는" 많은 분들에게 도움이 될 것 같습니다. 

 

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

저자가 데이터 분석에 대한 비전문가 입장에서부터 배워나간 경험을 녹여낸 내용으로, 도서의 제목과 표지 디자인에서부터 기술적 기반이 없는 이들을 대상이 선택할 수 있도록 만들어졌습니다. 책 내용에서 지은이의 데이터 분석 입문을 위한 생각과 방법을 잘 설명해 가고 있습니다.

 

다루고 있는 기술은 (1) 입문자를 위한 도서를 통해 학습하기에는 시간이 오래 걸리고 (2) 본격 데이터 분석 도서나 머신러닝 입문서를 통해 학습하기에는 내용이 어렵고 설명이 친절하지 않은 문제가 있습니다. 파이썬 기초, 파다스, 넘파이, 팻플롯립, 시본 모두가 그렇습니다. 본 도서는 데이터를 통해 통찰력을 얻기 위한 충분한 기술을 설명하면서 철저하게 입문자의 시각을 고려해 만들어졌습니다. 저자가 아무래도 비전문가 입장에서 바닥부터 다지고 쌓아 올린 경험을 했었기 때문에 누구보다도 입문자의 시각을 잘 고려할 수 있었습니다.

 

 

친절하게 설명한 파이썬의 기본기와 각종 라이브러리를 통해 데이터를 필터링하고 다양하게 변경해 보며 결측값/이상값 처리, 병합, 연산 등 가공하는 방법을 알아보며, 맷플롯, 시본을 통해 효과적으로 시각화하는 방법을 실습합니다.

 

전체적으로 일반적인 데이터 분석에 필요한 기본 기술요소들을 친절히 알아본 다음 마지막 장 넷플릭스 데이터셋으로 데이터 전처리와 시각화의 연습문제를 짧게 경험하는 것으로 도서가 구성되어 있습니다. 

 

내용과는 별개로, 글자로 빽빽하게 구성되어 입문자 입장에서 숨막히는 정독 시간 인내 하는 일부 기술서적과는 다르게 컬러에 질과 느낌이 좋은 종이로 구성이 되어 있고, 친절한 설명과 여유 있는 여백으로 내용외적으로 부담없이 초급 레벨의 데이터 분석가로 레벨업 할 수 있습니다.

 

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

안녕하세요 마개입니다.

 

이번에 소개해 드릴 책은 "어쩌다 데이터 분석 with 파이썬"입니다.

해당 책에 대해 알아보도록 하겠습니다.

 

한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.

 

도서 소개

* 도서명 : 어쩌다 데이터 분석 with 파이썬

* 지은이 : 김유지

* 출판사 : 한빛미디어

* 출간 일자 : 2022-09-29

* 페이지 : 412쪽

* 가격 : 정가 28,000원

 

파이썬을 이용한 데이터 분석과 머신러닝, 딥러닝 등 데이터 관련 업무에 대한 열기는 식지 않고 아직도 핫할 정도로 여전히 인기가 많습니다. 요즘에 나오는 책들의 경우 특정 주제를 정하고 그 주제를 파이썬으로 풀어나가는 방식이 많다면 해당 책은 이러한 분석을 할 수 있도록 기초를 다질 수 있는 책입니다. 이번 책을 통해 다시 기초를 다지며 복습을 하고 몰랐던 부분도 새로 알아갈 수 있었습니다.

넘파이와 판다스의 기초적인 사용 방법뿐만 아니라 공통적으로 많이 사용하는 데이터 정제와 이상값/결측값 처리, 시각화 등 데이터 분석의 시작부터 끝을 여러 상황에 맞춰 다양하게 사용하는 방법들에 대해 알 수 있습니다. 400쪽 정도 되는 분량에 상당히 많은 부분이 담겨 있어 여러 정보가 잘 담겨있다고 볼 수 있습니다.

 

 

총평

저자님이 데이터 분석이 전공은 아니라고 하였지만 여러 프로젝트와 과제를 통해서 익히신 만큼 노하우가 보입니다. 집필 기간이 1년 반이 걸렸다고 할 만큼 책 속의 내용들에는 많은 고민의 흔적이 보이고 많은 내용들을 담고자 노력하신 것이 보입니다.

책의 내용들은 정리가 잘 되어 있고 전부 컬러로 되어있어 눈에 쉽게 들어올 수 있었습니다. 데이터 분석에 대해 다시 기초를 다지거나 입문을 하고자 하는 분들에게 추천드립니다.

 

데이터 분석이라는 단어는 이제 전공자가 아니라도 익숙한 것 같습니다. 의무교육 수준에서도 데이터 분석에 대해 배워나가는 중인데, 그만큼 많은 데이터들이 범람하고 있는 세상에서 어떤 데이터가 좋고 어떻게 활용하는 것이 바람직한지에 대하여 고민하는 것이 필수이겠습니다. 그만큼 활용도가 높은 분야라고도 생각이 드는데요.

 

 

이 책은 파이썬을 이용한 데이터 분석에 관심이 있는 입문자들을 대상으로 합니다. 파이썬에 대한 기본 문법에 대해선 간략히 나와있지만 미리 알고 있다면 정말 쉽게 접근할 수 있을 것이고, 그렇지 않더라도 앞 부분을 따라오며 문법에 대해 간단히 익혀나가면 좋겠습니다. 초급과 중급 사이의 수준이라고 보면 되겠습니다.

 

 

이후 데이터 분석이 무엇인지 살펴보고 도대체 왜 해야하는지, 그리고 파이썬을 활용한 데이터 분석의 이점이 무엇인지 알아가는 시간을 가질 수 있습니다. 데이터 분석 준비, 기본, 정제 및 응용 과정을 거치며 처리 및 가공 과정에서 데이터 필터링 및 정렬 방법에 대하여 배울 것입니다. 이후 데이터를 병합하거나 재형성, 그룹 연산, 날짜시간 데이터 처리, 시각화, 실습 과정 등을 거치며 데이터 분석에 대하여 편하고 부담스럽지 않게 접근할 수 있습니다.

 

데이터가 쌓이며 많은 기회와 생태계가 펼쳐질 수 있지만, 어떤 것이 가치있는 데이터인지 확인하는 것은 매우 어렵습니다. 그렇기에 데이터 관련된 일은 전문적이고 중요한 일일 수 밖에 없다고 책은 이야기 합니다. 하지만 접근성이 높아졌다는 점은 분명한 장점이고, 전공자가 아니더라도 필요할 경우 쓰일 수 있단 점에서 매우 좋다고 이해됩니다.

 

 

데이터 분석 과정은 처음에 정의와 분석 방안 계획을 하고 이를 수집, 정제하여 탐색과 분석을 가집니다. 이후 이를 해석하여 피드백을 주고 다시 돌리는 과정을 가지는데요. 이 책은 해당 프로세스에 대하여 천천히 알려주되 너무 전문적인 내용으로 빠지진 않고, 준비된 데이터셋을 대상으로 어떤 구조와 타입인지, 어떻게 정제하는지, 그리고 어떤 각도로 데이터를 바라봐야 하는지 수준에서 알려준단 점에서 부담스럽지 않게 읽을 수 있겠습니다.

 

해당 책을 통하여 데이터 분석을 하면 무엇이 좋은지, 혹은 데이터 분석에 관심이 많지만 도대체 어떻게 접근하면 좋을지 고민하시는 분들께 좋은 책이며, 천천히 프로세스를 따라 문제를 하나씩 해결한다면 어느덧 데이터에 대하여 접근하는 나만의 방식이 생기는 것을 알 수 있지 않을까? 라는 생각이 듭니다.

물론 구글링을 하면서 공부해보는 것도 좋은 방법이지만, 기본서 하나 가지고 있으면 든든하고 빠르게 원하는 지식을 습득할 수 있다. 입문은 책의 힘을 빌리고, 구글링하고 프로젝트 해보며 지식을 늘리는 건 참 흥미롭고 빠른 학습을 돕는다고 생각한다. 그런의미로 이 책은 하나쯤 가지고 있으면 참 든든하다.

Author: 김유지 지음

출판사: 한빛미디어

Score /5: ⭐️⭐️⭐️⭐️⭐️

 

저는 기승전결이 뚜렷하게 구분되고 친절한 책을 좋아합니다. 그런 의미에서 개인적으로 이 책은 저에게 알맞은 책이었습니다.
개발환경 설정부터 데이터 분석을 위한 파이썬 기본 문법과 클라이맥스인 파이썬을 활용한 분석까지 하나의 이야기가 시작되고 끝나듯 홀린듯 책을 읽은것 같습니다.

그렇다면 전체적인 부분을 설명해야 하기 때문에 책이 두꺼워지고 복잡해질 수 있을거란 생각을 가지는 분들도 많을 것 같습니다. 이 책은 확실하게 복잡하지 않다고 설명할 수 있을것 같습니다. 약 400여 페이지속에서 데이터분석에 대한 내용을 같이 다룬다는게 정말 쉽지 않습니다. 짧은 지면속에 내용을 담게되면 내용이 어려워지거나, 아니면 지면이 길어지면서 장황해지거나 이렇게 진행이 될터인데 이 책은 간결하게 독자들에게 내용을 전달합니다.

데이터 분석의 세계는 미지의 세계처럼 느껴지는 경우가 많습니다. 그래서 저 같이 해당 분야에 문외한인 독자들은 접근하기 쉽지 않습니다. 저와 같이 이런 미지의 두려움을 느끼셨던 독자분들은 이 책을 통해서 당당하게 두려움을 돌파 하셨으면 좋겠습니다.

 

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."


 

20221030_112516.jpg

어쩌다 데이터 분석은

효율적인 데이터 분석 및 시각화에 대해 초심자(초상)의 눈으로 이야기하는 책이다.

판다스와 다양한 파이썬 라이브러리,

저자는 현업에서 필요한 데이터 분석에 대해 잘 알고 있는 듯 하다.

어떤 내용이 필요 한가를 잘 이해하고 잘 설명하고 있다.


이 책은

다른 책의 유형과 비슷하기는 하다. 시작은 파이썬으로 데이터 분석을 위한 준비로 무엇이 필요하고 그 준비를 통한 기본 내용과 핵심 라이브러리를 잘 설명해 주고 있다.

데이터 분석의 기본

데이터 분석에 필요한 가장 필수적으로 알아야 하는 라이브러리를 설명하고 사용하는 다양한 예제를 보여준다. 이 장을 통해서 데이터 처리의 기본적인 방법을 이해하도록 하고 있다.

데이터 정제와 응용

데이터를 처리하고 가공하는 다양한 방법이 존재하는데 저자는 초심자들도 쉽고 이해하기 쉽게 다양한 함수를 기본으로 사용하는 방법에 대해 잘 설명하고 있다.

데이터 병합과 재형성

초보자들이 데이터프레임을 연결하고, 다양한 방법으로 활용 가능한 방법을 자세하게 설명해준다. 또한 데이터 병합이나 재형성의 후 처리 방법도 빼놓지 않고 설명한다.

데이터 집계와 그룹 연산, 날짜시간 데이터 처리

판다스를 활용한 그룹화의 개념부터 활용법을 다양한 요약과 집계 처리를 통해 학습 하도록 한다. 지루하지 않다. 그리고 시계열 데이터를 다룰때 필요한 것들과 날짜 처리 시간 처리 등 데이터 타입에 대해 배우고 인덱스에 대한 내용도 빼놓지 않고 잘 설명하고 있다.

데이터 시각화

파이썬의 꽃이라고 할 수 있는 데이터 시각화이다. 맷플롯립을 활용해서 시각화에 대해 필수적으로 알아야하는 것들에 대해서 아주 자세하고 쉽게 잘 설명해준다.

그리고 가장 많이 활용되는 시본에 대해서도 주요 그래프등을 통해서 다양한 시각으로 잘 보여준다.

이렇게 이 책은 파이썬으로 데이터 분석을 해보고자 하는 초보자는 물론이고 데이터 분석에 대해서 다양한 시각으로 접근해서 쉽게 학습할 수 있는 그런 책이다. 입문자는 쉽게 학습할 수 있을것이고 이미 어느정도 알고 있는 독자라면 다양한 예제와 친절한 설명으로 막막하게 느껴질 수 있을지도 모르는 데이터 시각화에 대해서 또 다른 안목을 키워줄 수 있는 그런책이라고 본다. 옆에 두고 잘 기억이 나지 않을 때 바로 펼쳐 바로 사용할 수 있을 정도록 잘 정리가 되어 있는 책이라 적극 추천한다.


"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

왜 제목이 "어쩌다.." 일까 궁금했는데 작가 소개를 보니 알 듯하다 미디어디자인 전공인 그녀가 "어쩌다" 파이썬을 스터디하고 책까지 쓰게 된...^^ 나도 화학을 전공하고 전업으로 살다 여기로 뛰어들었으니 어쩌다인 셈이라 왠지 마음이 간다 책의 대상은 파이썬 문법을 기본으로 알고있는 사람으로 잡혀있어서 파이썬 기본문법은 다른 곳에서 봐야할 듯하다 하지만 필요한 기본 문법은 정리가 되어있다 파이썬은 쥬피터노트북을 기본으로 하지만 구글 코랩도 할 수 있다고 설명되어있다 데이터 분석에 필요한 넘파이, 판다스, 맷폴립, 시본 모듈에 대해 간단히 소개하고 뒤에서 예제를 통해 설명이 되어있다 데이터분석 스터디 한 지 일 년 정도 지났는데 다시보니 아 이런 것도 있었지 싶다 내용정리가 잘 되어있고 예제가 쉬운 편이라 데이터 분석 시작하는 분들은 봐도 좋을 듯 하다 이 책에선 날짜시간 데이터 처리가 따로 정리되어있다. 그래서 날짜나 시간대별로 정리된 데이터들도 분석하는데 문제 없겠다. 데이터 시각화부분에서도 각각의 그래프에 대해 설명하고 있는데 길고 장황한 설명보다 짧고 간결한 설명으로 되어있어 전달이 잘 되는 듯 하다 실전에선 넷플릭스 데이터셋을 이용한 분석이 있는데 요즘 관심있어할만한 내용이다. 전반적으로 긴 글보다 짧고 간결한 문장으로 내용 전달이 잘되고 정리가 잘되어 있는 책이다 (((((나는 리뷰어다))))) 활동으로 책을 제공받았습니다

 


[도서 소개]

파이썬 데이터 분석은 처음EASY?

판다스 핵심 레시피와 예제로 익히는 파이썬 데이터 분석 기초!

이 책은 파이썬 데이터 분석을 위해 반드시 알아야 하는 판다스, 넘파이, 맷플롯립, 시본 등 파이썬 핵심 라이브러리를 사용해서 효과적으로 데이터를 분석하고 시각화하는 방법에 대해 다루고 있다. 파이썬 데이터 분석 입문자를 위해 일반적인 데이터 분석 과정으로 내용을 구성했으며 데이터 분석을 위한 중요한 핵심 함수와 처리 과정을 쉽고 간결하게 설명하고 있다. 마지막으로 넷플릭스 데이터셋으로 실무에 적용 가능한 데이터 전처리 및 시각화 과정을 실습해본다.

 

[주요 내용]

- 판다스, 넘파이, 맷플롯립, 시본 등 파이썬 핵심 라이브러리를 사용해서 효과적인 데이터를 분석과 시각화 방법을 다룹니다.

- 파이썬 데이터 분석 입문자를 위해 일반적인 데이터 분석 과정대로 내용이 구성되어 있고 중요한 핵심 함수와 처리 과정을 쉽고 간결하게 설명한다.



[대상 독자]

- 데이터 분석가

- 데이터 엔지니어

- 데이터 분석에 관심이 많은 개발자


[같이 보면 좋은 책]


  • 데이터가 뛰어노는 AI 놀이터, 캐글 -한빛미디어

  • 파이썬 증권 데이터 분석 - 한빛미디어


[추천사]

  • 김정용 (SK하이닉스 | AI 엔지니어)
    요즘은 데이터 분석 전문가가 아니더라도 자기 분야의 데이터 분석을 스스로 하는 시대이다. 다만 일반인도 처음부터 따라 하기만 하면 데이터 분석의 기초를 갖출 수 있는 책이 많지 않아 아쉬움이 있었다. 이 책은 파이썬과 데이터 분석을 처음 접하는 입문자가 기본서로 삼아 공부하기에 적합한 내용으로 구성되어 있으며 비전문가의 눈높이에 맞는 적절한 예제로 쉽게 설명하고 있다. 특히 공식 문서에는 나오지 않지만 알아두면 좋은 팁과 초보자가 하기 쉬운 실수에 대한 조언이 가득 담겨 있다는 것이 이 책의 가장 큰 장점이다.

  • 남상구 (인텔 | 소프트웨어 엔지니어)
    개발, 마케팅 등의 업무를 담당하는 사람뿐 아니라 일반인도 데이터를 다뤄야 하는 시대이다. 이 책은 초보자도 쉽게 데이터 분석에 입문할 수 있도록 도와주는 백과사전이다. 데이터 분석을 위한 환경 구성부터 기초 및 고급 지식을 습득할 수 있는 다양한 예제가 마련되어 있으며, 마지막 장의 EDA 실습을 통해 실전에 빠르게 적용할 수 있도록 도와준다. 데이터 분석의 기초를 최대한 빠르게 습득함과 동시에 실전에 적용하고자 하는 독자에게 이 책을 강력히 추천한다.

  • 이제현 (한국에너지기술원 플랫폼연구센터 | 선임연구원)
    파이썬을 이용한 데이터 분석과 머신러닝을 배우기 시작하면 어렵게 느껴지는 고비가 몇 군데 있다. 그중 하나가 판다스를 사용해 데이터를 다룰 때이다. 처음엔 판다스를 사용해 데이터를 읽고 쓰면서 그 편리함과 예쁜 표로 시각화된 모습을 보며 신세계를 만난 기분이 들지만 본격적으로 데이터를 가공하고 집계하다 보면 데이터 앞에서 작아지는 자신을 보게 된다. 판다스는 짧은 시간 동안 집중해서 익히는 라이브러리가 아니다. 다루는 데이터에 따라 각기 다른 대응법을 끊임없이 배워야 하는 존재이다. 이 책은 판다스의 중요한 기능이 적절한 예제에 함께 간결하게 정리되어 있다. 판다스를 빨리 익혀야 한다는 조바심은 잠시 내려두고 이 책을 통해 판다스의 필요한 기능을 하나씩 배워보기 바란다

  • 하송미 ((주)네피리티 | 데이터 분석 엔지니어)
    데이터 분석, 어디서부터 어떻게 무엇을 배워야 할지 참 막막하게 느껴질 것이다. 이런 고민을 가지고 있는 독자에게 알맞은 설루션으로 이 책을 추천한다. 입문자에게 파이썬 핵심 라이브러리 사용법을 비롯하여 필요한 것만 알려주어 학습 시간을 아껴주고, 쉽게 설명하고 있어 데이터 분석의 진입 장벽을 조금이나마 낮춰준다. 책을 덮을 즈음에는 데이터 분석에 대한 자신감이 생기게 될 것이며, 이 책이 데이터 분석가라는 초행길의 믿음직스러운 길잡이가 되어줄 것이다.

  • 조준호 (한국고용정보원 | 데이터 분석가)
    프런트엔드 개발자로 성장하고자 하는 독자라면 한 권쯤 꼭 가지고 있으면 좋을 안내서이다. 개발자라는 긴 여정을 시작하는 초심자를 위해 개발 환경 설정부터 현업에서 주로 사용하는 데이터 형태와 타입 그리고 분석 기법을 군더더기 없이 단계별로 예제와 함께 풀어주고 있다. 이 책에서 안내하는 단계별 여정대로 잘 따라간다면 길을 잃을 일 없이 어느새 자연스럽게 데이터 분석을 하고 있는 자신을 볼 수 있을 것이다.

  • 이단비 ((주)이팝콘 | 데이터 분석가)
    이 책은 한 마디로 판다스 기초 백과사전이라고 할 수 있다. 상세한 설명과 다양한 예제를 통해 데이터 분석 초심자가 데이터프레임을 활용한 분석 과정에서 막힐 수 있는 부분을 자세하게 설명해주고 있기 때문에 처음 데이터 분석을 시작하려는 독자에게 추천한다. 또한 다양한 데이터프레임 사용 방법을 숙지할 수 있고 다시 한번 기초를 다지는 기회가 될 수 있기 때문에 데이터 분석을 경험한 독자에게도 많은 도움이 될 것이다



[서평]

판다스는 파이썬 환경에서 데이터를 분석하기에 최적화 된 오픈소스 라이브러리이다. 이 책은 파이썬 데이터 분석을 위한 준비 과정과 알아야 하는 개념 그리고 판다스 핵심 기능과 데이터 시각화 기초까지 다룬다. 또한 파이썬 데이터 분석에 필요한 핵심 레시피를 익힌 뒤 넷플릭스 데이터셋으로 실무도 경험해본다. 현업에 적용할 수 있는 EDA를 실습하고 데이터 간 유의미한 상관관계를 분석하며 데이터 분석 역량을 기를 수 있도록 도와준다.

이 책의 구성은 1장_데이터 분석 준비에서 데이터 분석이 무엇이고 어떻게 진행되며 어떤 역량이 필요한지 살펴본다. 그리고 파이썬 데이터 분석을 실행하기 위한 개발 환경을 구축한 뒤 이 책을 읽는 데 필요한 파이썬 기본 내용과 핵심 라이브러리에 대해 알아본다.

2장_데이터 분석 기본에서는 파이썬에서 데이터 분석을 하기 위해 가장 필수적으로 알아야 할 라이브러리인 넘파이와 판다스의 기본 사용법을 학습한다. 데이터를 불러오고, 생성하고, 선택하고, 골라내고, 삭제하고 새로운 모양으로 변경하는 등 기초적인 데이터 처리 방법을 배운다. 3장_데이터 정제와 응용에서는 데이터를 처리하고 가공하는 다양한 방법을 몇 가지 카테고리로 분류해서 배운다. 먼저 상세한 조건으로 데이터를 추출하거나 다른 함수를 활용하여 데이터를 필터링하는 기법과 정렬 테크닉을 알아본다. 그다음 결측값이 생기는 원인과 판다스로 결측값을 확인하고 처리하는 방법에 대해 익힌 뒤 이상값을 확인하고 처리하는 방법을 살펴본다. 4장_데이터 병합과 재형성에서는 서로 다른 데이터프레임을 연결하고, 합쳐진 데이터프레임을 다시 다른 모양으로 변경하는 학습을 한다. 판다스의 함수를 통해 흩어져 있는 데이터를 연결하고 병합하는 방법을 익힌다. 그리고 테이블 형식의 데이터를 다양한 방식과 기준으로 데이터를 재배치하거나 피벗하는 방법을 학습한다. 마지막으로 데이터 병합이나 재형성 후의 처리 방법에 대해 다룬다. 5장_데이터 집계와 그룹 연산에서는 판다스의 groupby 개념과 활용법을 배우고 데이터를 그룹별로 나누어 요약 및 집계를 해본다.

또한 판다스에서 피벗 테이블과 그룹 빈도를 계산하는 크로스탭을 활용한 분석에 대해서 알아본다. 6장_날짜시간 데이터 처리에서는 판다스에서 사용하는 시계열 데이터 종류인 datetime과 관련하여 날짜와 시간에 대한 기초 지식을 학습한다. 날짜시간 데이터를 다룰 때 기초적으로 알고 있어야 할 데이터 타입에 대해 배우고 인덱스와 관련있는 몇 가지 주요 처리 방법에 대해 익힌다. 7장_데이터 시각화에서는 대표적인 파이썬 데이터 시각화 라이브러리인 맷플롯립과 시본을 알아본다. 먼저 파이썬으로 데이터 시각화를 할 때 필수적으로 알아야 할 맷플롯립의 핵심을 학습한다. 그다음 많이 활용되는 시본의 주요 그래프에 대해 배워본다.

8장_데이터 분석: EDA 실습에서는 앞에서 배운 기술을 어떻게 사용하고 응용되는지 익히기 위해 데이터 분석 실습 과정을 진행한다. 분석하려는 데이터의 특징을 파악하여 적합한 전처리 기법을 적용한 후 데이터를 더 잘 이해할 수 있도록 다양한 시각화 작업을 해본다.

 

이책의 저자는 데이터 분석을 전공자가 아니지만 현재 전문적인 데이터분석 분야에서 활약을 하고 있다. 데이터 분석 전공자가 아니지만 현재 데이터 분석 분야에서 일하는 분들에게 겪을 고민과 궁금한 내용을 책에 잘 녹여 진거 같다. 데이터 분석에서 가장 기본인 파이썬과 판다스에대해서 꼭 필요한 문법만 설명을하고 데이터 가공, 처리에 가장 필요한 지식에 중점을 주고 맥을 잘 짚어 주고 있다. 이책을 시작으로 데이터 분석을 길을 한번 시작해보는것을 추천 합니다.

 

 

 "한빛미디어 리뷰어 활동을 위해서 책을 제공받아 작성된 서평입니다."


머리가 나쁘면 몸이 고생한다는 말이 맞는 것 같다.

판다스는 이미 나의 이 얄팍한 지식을 대비해서 다 함수를 만들어 두었다.

아마 이 책을 접하지 못했다면, 계속해서 내 나름대로 딕셔너리를 쓰면서 데이터들을 만지고 있었을 것 이다.

이번 리뷰를 통해서 아직도 갈 길이 멀다는 것을 느끼는 리뷰가 되었고........

아 너무 자기 성찰만 한 것 같다.

일단 처음 말했던 이 책의 대상독자는 데이터 분석가 입문자들을 위한 책이라고 언급한 것 처럼,

현재 데이터 분석에서 널리 쓰이는 pandas에 대해서 백과사전 같은 책이라고 생각이 된다.

하지만 pandas뿐만이 아니라, matplotlib, seaborn을 활용한 시각화관련 예시들도 존재하고,

무엇보다 마지막 챕터의 EDA 실습을 통해서 앞서 배운 내용들을 연습해보는 것이 좋은 것 같다.

​자세한 내용은 블로그를 참고해주세요https://blog.naver.com/ab415/222914391040

 

 

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

책을 읽기 전에

‘어쩌다 데이터 분석’이라는 제목과 표지의 일러스트가 인상적이었습니다. 데이터 분석에 처음 입문하는 사람들도 부담 없이 집어들 수 있는 책이라는 느낌을 받았습니다.

낮은 눈높이와 높은 퀄리티

책의 도입부에서는 디자인 전공자인 저자가 어쩌다 데이터 분석에 입문하게 되었는지, 또한 그 과정에서 익힌 효율적인 학습법은 무엇인지 소개하고 있습니다. 마찬가지로 본문에서도 용어 정의가 필요하거나 해당 기술이 왜 필요한 것인지 의문이 생길 수 있을 때, 쉽게 공감할 수 있는 언어로 풀어서 설명해주는 점이 좋았습니다.

입문서 이상의 탄탄한 구성

단순히 판다스를 이용한 예제 몇 가지를 다루는 정도의 내용만을 기대하면 오산입니다. 데이터 분석의 정의와 필요성부터 넘파이 문법 등 기반을 이루는 내용부터 시작해, 전처리, 병합, 그룹 연산 등 데이터를 다루려면 꼭 알아야 하는 기능을 꼼꼼히 서술하고 있습니다. 또한 데이터 처리에서 그치지 않고, 맷플롯립을 사용한 데이터 시각화와 실습 예제까지 담고 있는 올인원 도서라고 볼 수 있습니다.

 

데이터 분석에 관심 있는 입문자와 기초를 다지고 싶은 이라면 어쩌다 데이터 분석 with 파이썬을 (어렵겠지만) 읽어보길 권하고 싶다. 기본적으로 앞장은 파이썬을 사용하는데 필요한 기본 문법 등을 다루고 있으며 공부를 계속 이어나갈수록 실질적인 데이터를 다루기 위한 각종 지식을 접하게끔 구성되어있다.(따라서 상당히 지루하게 느껴진다. 이게 어디에 쓰이는지도 모르는 개념들을 접하게 되니 자연스럽게 생기는 현상이긴 하지만..)

# 어쩌다 데이터 분석 with 파이썬: 판다스로 시작하는 효율적인 데이터 분석 및 시각화

기본을 다루는 책이다 보니 정말 기본에 충실하다는 인상을 받게 되었다. 데이터에 관해 문외한이라면 좋은 책이지만 인내력을 요하는 책이라는 생각이 들었다. 이미 관련 업종에서 일하는 종사자들에게는 새로울 것이 없을 수도 있지만, 이제 발을 들여놓는 사람이라면, 정말 관심이 없다면 이 책은 큰 효용성을 발휘하지 못할 것이라 생각되었다. 책에서 언급되어 있듯 초중급자를 대상으로 하고 있는데 지극히 개인적인 견해지만, 책의 내용이 인내심을 필요로 하기 때문에 입문/초급에게는 좋지만 어려울 것 같기도 하다. 초급과 초중급의 차이가 이렇게 심한 것일까?

어쩌다 데이터 분석 with 파이썬은 데이터를 어떻게 다루어야 하는지 자세하고 친절하게 다루고 있다. 흔히 눈으로, 일반적으로 접하게 되는 데이터를 가시적으로 만들어내는 그래프 하나가 만들어지기 까지의 사전단계를 백분위수 구하기, 데이터 수 파악하기, 최소/최댓값, 평균값 등을 구하는 방법들을 하나하나 예를 들어주고 있어 보기 좋았다. 데이터 분석이란 정말 엉덩이가 무거운 사람에게 딱 어울리는 분야가 아닐까 생각되었다.

1장에서 파이썬에 대한 기본적인 것들을, 2장의 분석에 관한 기본적인 것들을 겨우 넘기고 나오는 3장에서 드디어 데이터를 정제하는 방법과 응용법을 알게 되고 4장, 5장, 6장의 데이터의 병합, 재형성, 집계, 연산, 날짜, 시간 등을 다루는 지난한 과정을 거쳐 7장에 가서야 우리가 일반적으로 접하게 되는 시각화에 대해 다루게 된다. 어렵지만, 하나하나 개념을 익혀 나가는 과정이 나름 재미있기도 하다.

초반, 몇 번인가 파이썬을 건드려 보고 아주 기초적이나마 문법이 눈에 익었다는 생각에 설렁거리면 읽어나가다 통계를 다루기 위해 사용되는 분석에 관한 기본적인 것을 다루는 2장부터 3장까지 예제를 따라 하면서 나아가는데 갈수록 안갯속을 헤매는 느낌이었다. 제대로 준비가 되어 있지 않다는 것을 느끼고 다시 앞으로 돌아가 읽어 나가기 시작했다.

예제를 따라 하기 위한 환경으로 기본적으로는 아나콘다를 제안하고 있지만, 대안으로 제시하고 있는 구글 코랩을 통해서도 따라 하는데 지장은 없었다. 새로 무언가를 깔기가 껄끄럽다면 대안으로 좋을 것 같다.

# 후기

어쩌다 데이터 분석 with 파이썬은 읽기 편하게 정리되어 있는 첫인상을 받는다. 그리고 별로 어려울 것 같지 않다는 착각도 들게 만든다. 하지만, 책을 읽다 보면 인내력을 필요로 하게 된다는 것을 알게 된다. 왜냐고? 그림이 많은 것 같아 쉽다는 생각이 들지만, 결국 테이블로 이루어진 데이터들을 다루고 정제하는 과정을 보여주기 때문이다. 그럼, 재미가 없을까 싶으면 또 그렇지 않은 게... 필터링되어 있지 않은 데이터를 하나하나 만들어 나가는 과정이 나름 흥미롭다.

결국 목적의식이 확실한 초보자라면 책을 따라 하면서 데이터에 대한 깊이 있는 공부가 가능할 것 같다. 지은이의 말에 책의 집필 과정과 어려웠던 과정을 같은 과정을 진행하고 있는 이들에게 전달해주기 위해 작성된 만큼 쉽게 익힐 수 있다는 문구로 현혹하는 것이 아닌 실제로 필요한 것들을 알려주고 그 과정이 쉽지 않다는 것을 알려주는 책이라 생각되었다. 눈에 보이는 산출물을 만들기 위해 어떤 치밀한 과정이 필요한지 어쩌다 데이터 분석 with 파이썬을 통해 경험할 수 있을 것이다.


3745.jpg

 

데이터 과학과 분석은 어쩌면 전혀 다른 분야일 수도 있겠지만, 엄밀히 말하면 과학이 더 큰 범주를 뜻한다. 데이터 분석은 데이터를 기반으로 이 데이터의 결과를 도출하고 시각화하는 것을 의미하는데, 전공자가 아니어도 할 수 있다는 장점이 있다.

​이번에 만난 '어쩌다 데이터 분석 with 파이썬'은 비전공자가 쓴 책으로 저자는 물론 비전공자들도 데이터 분석을 할 수 있다는 자신감을 심어주는 책이다. 그러다보니 책의 수준과 대상독자는 초보자 레벨에 맞춰져 있고, 책의 구성 또한 전공 서적이 아닌 일반 서적같은 느낌을 주는 구성으로 되어 있다.

 

3746.jpg

 

 

이 책은 파이썬으로 작성된 예제로 구성되어 있기 때문에, 파이썬에 대한 기초 지식은 필요로 한다. 물론 책 속에 한 챕터를 할애하여 파이썬을 설명하고 있지만, 본격적인 데이터 분석에 입문하기 위해서는 파이썬은 조금이라도 익히고 시작해야 할 것이다.

UX 관련 전공을 한 저자도 업무를 하던 중 데이터 관련 일을 접하게 되었는데, 관련 지식이 부족해서 파이썬을 공부하기 시작했다고 한다. 다양한 방법으로 데이터 분석을 공부하면서 여러 시행착오를 거쳐 저자만의 합리적인 학습 과정을 터특하기 시작했다고 한다. 그것은 '원리 이해 -> 실습과 실행 -> 나만의 정리'과정을 반복하는 것이라고 한다.

저자는 자신이 초심자였을 때의 기억을 떠올리며 책에는 초심자 때 우선적으로 배워야 할 핵심 내용, 같이 배우면 좋을 만한 내용을 많이 수록했고, 저자가 운영하고 있는 블로그의 방문자가 궁금해하던 내용도 많이 포함시키려 노력했다고 한다.

 

3747.jpg

 

3748.jpg

 

 

책의 구성을 보면 1,2장에는 데이터 분석을 위한 준비과정과 기본을 다루고 3장부터는 데이터 분석을 위한 본격적인 내용 (데이터 정제, 데이터 병합과 재형성, 데이터 집계와 그룹 연산, 날짜시간 데이터 처리, 데이터 시각화) 등을 다룬다.

하나의 주제에 대해 단계별로 예제 소스를 설명하고 있고, 각 사용 메소드 별로 결과를 보여주고 있기 때문에 데이터가 어떻게 처리되는지 한눈에 확인할 수 있다. 가독성이 좋게 예제코드는 하늘색 블록으로 되어 있고, 결과창도 하늘색 테두리의 블록으로 구성이 되어 개인적으로 마음에 든다.

이 책은 각 주제별로 사용되는 판다스 라이브러리의 메소드를 설명하고 있기 때문에, 해당 기능의 예제는 책을 읽으면서 학습하고 전체 예제소스는 저자의 깃허브 저장소(https://github.com/claryk0520/bumping-into-data-analysis 에서 확인할 수 있고,

저자의 이메일이나 블로그를 통해 궁금한 사항을 문의할 수 있다.

 

3749.jpg

 

 

데이터 분석에 관심이 있는 분이라면 입문서로 이 책을 선정해서 보면 좋을 것 같다.

한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.

 

​#어쩌다데이터분석with파이썬 #어쩌다데이터분석 #파이썬 #판다스

어쩌다 데이터 분석 with 파이썬_02.png

 

이 책은 데이터 분석에 대해서 공부를 해보고자 시작하는 입문자들을 위해서 아주 쉽게 파이썬을 활용해서 데이터 분석에 사용하는 방법을 친절하게 설명해주고 있다. 데이터 분석에 대한 기본적인 이해가 없고, 파이썬 프로그램에 대해서 접해본적이 없다고 하더라도 기본적인 IT지식만 있어도 책에서 알려주는데로 따라하다보면, 데이터분석이라는 것을 파이썬으로 어떻게 할수 있는지 자연스럽게 알아갈수 있을 것이다.

 

이 책의 내용을 실습하기 위해서는 파이썬 프록램만 설치하면 되며, 추가적으로 주피터 노트북을 설치하면 좀더 편리하게 따라하면서 실습을 할수 있으며, 설치 없이 무료로 이용할수 있는 구글 코랩(https://colab.research.google.com/)을 이용해도 되며, 그외에 VS코드등 가지고 있는 개발툴이 있다면 그대로 이용해도 된다.

 

이 책에서 데이터분석으로 사용하는 주요 파이썬 라이브러리는 4가지로, 파이썬을 사용하여 수학적인 프로그램을 작성해 보신분들은 많이들 사용해보셨을 넘파이(NumPy), 판다스(Pandas)와, 데이터 시각화 라이브러리인 맷플롯립(Matplotlib)과 시본(Seaborn) 으로 이 책에서는 이 4가지 라이브러리를 가지고 데이터 분석을 하는 방법을 학습하게 되며, 이 라이브러리들을 사용해본적이 없고, 파이썬 프로그램을 접해본적이 없다고 하더라도 이 책에서는 앞부분에서 필요한 부분은 자세히 설명해주고 있기 때문에, 걱정하지 않고 따라하면 된다.

 

 

 

 

 

어쩌다 데이터 분석 with 파이썬_03.png

 

책에서의 모든 설명들은 코드를 작성해서 실습을 하면서 직접 실행결과와 함께 설명을 해주고 있기 때문에, 상당히 직관적임며, 이해하는데 어려움이 없으며 기존에 DB SQL문을 아시는 분이시라면 사용방법은 다르지만 이해하는데 좀더 수월할수도 있다.

 

이 책에서 알려주고자 하는 내용들은 마지막 챕터인 EDA 실습 부분으로 실제로 캐글에서 제공하는 넷플릭스 콘텐츠 관련 데이터셋을 가지고 책에서 학습했던 대로 활용을 해서 가져온 데이터를 처리하고 원하는 데이터를 추출해서 보기 좋게 시각화로 결과를 도출해 낼수 있음으로 이 책으로의 학습 목표는 달성하게 됩니다.

 

앞에서도 적었다 싶이 이 책은 파이썬 프로그램을 이용해서 데이터 분석을 학습하고자하는 분들에게 가장 단기간에 빠르게 학습하면서 활용할수 있는 입문서이기 때문에 이 첵을 통해서 기본적인 것을 학습하신후에는 공개되어 있는 많은 공공데이터들이나 업무에 필요한 데이터들을 가공해서 원하는 데이터값들을 시각화해서 도출하시는데 도움이 될것이다.

 

 

  "한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

 

 

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

어쩌다 데이터 분석 with 파이썬

지금 우리는 그야말로 데이터가 넘치는 시대에 살고 있다. 핸드폰이나 태블릿, 스마트 워치와 같은 전자기기들은 우리의 정보를 실시간으로 기록하고 있고, 인터넷은 우리가 선택한 모든 것을 '로그'로 수집하고 있다. 대체로 이런 데이터들은 매우 단순한 몇 가지 정보만 담고 있어 하나의 데이터는 전혀 가치가 없어 보인다. 하지만, 이런 기록들이 쌓여가기 시작해 통계적인 의미를 갖기 시작한다면 쓸모없어 보이던 데이터 저장소는 그야말로 금광이 되어 버린다. 최신 아이폰에선 실시간으로 관측되는 데이터를 통해 차량 사고를 감지하기도 하고, 수 많은 온라인 쇼핑몰은 몇 번 클릭을 하지도 않은 것 같은데 나의 취향에 맞는 수많은 상품들을 진열해 놓기도 한다.

데이터의 가치를 정확히 발견하기 위해서는 당연히 데이터를 다룰 수 있어야 한다. 심지어 데이터가 내포하고 있는 특별한 정보를 잘 찾아내는 것 뿐만이 아니라 결과를 시각적으로 돋보일 수 있게 만들어 다른 사람을 설득하는데 힘을 실어줄 수 있어야 한다. 이 모든 것을 해내기 위해선 적절한 도구가 필요한데, 개인적으로 아주 유용하다고 생각하는 것은 프로그래밍 언어 중 하나인 파이썬(Python)과 파이썬의 라이브러리인 판다스(Pandas)와 맷플롯립(Matplotlib)을 함께 활용하는 것이다.

지금까지도 본격적으로 업무의 영역에서 데이터 분석을 다룰일이 없어 겉핥기식으로 판다스와 맷플롯립을 사용해보고 있었다. 이 라이브러리들은 기본적인 기능은 단순하고 익히기 쉬워 몇 가지 함수만 사용하여 데이터 분석에 발을 들이는 것은 가능하다. 하지만, 모든 고인물의 세계가 그렇듯이 "진짜"가 되기 위해 가야 할 길은 너무나 멀다. 만약 발을 들이는 것에는 성공했다면, 김유지 작가님의 <어쩌다 데이터 분석 with 파이썬>이라는 책은 파이썬을 활용한 데이터 분석에 기초를 다지기 아주 좋을 것이다. 심지어 파이썬을 전혀 모르는 상태에서 데이터 분석을 시작한다 하더라도 아주 좋은 선택이다. 8개의 챕터 중 무려 2개의 챕터에 걸쳐 기본적인 파이썬의 활용법이나 라이브러리의 기초 내용에 대해 핵심만 짚어주고 넘어간다.

본격적인 데이터 분석의 이론은 4개의 챕터를 통해 설명한다. 데이터를 처음 마주하였을 때 쓸데없이 하드 디스크의 용량만 차지하는 비트 덩어리를 어떻게 처리하면 쓸모있는 정보가 될 수 있는지 설명해 준다. 특히 판다스에서 사용하기는 어렵지만 아주 강력한 기능들이라 생각되는 병합이나 그룹화 같은 것들을 상세히 다룬다. 

마지막으로 남은 두개의 챕터에서는 각각 데이터 시각화 방법과 앞서 배운 내용을 총망라하는 실습이 들어 있다. 데이터 시각화에서는 이전 챕터에서부터 책의 마지막까지 사용하고 있는 다양한 시각화 그래프들을 만드는 방법들을 상세히 다루어 주고 있다. 마지막 실습에서는 하나의 데이터 셋을 통해 "탐험적 데이터 분석(Exploratory Data Analysis)"을 수행한다. EDA를 한 단계씩 수행할 때마다 실습 데이터 셋에 숨어 있던 정보들을 하나씩 찾아가는 재미도 나름 쏠쏠하다.

<어쩌다 데이터 분석 with 파이썬>은 책 전반에 걸쳐 글이 전혀 부담으로 다가오지 않고, 다양한 코드와 결과물 예시 이미지 등을 적극 활용하여 활자 알러지가 있더라도 안심할 수 있다. 특히 코드와 결과물을 보여줄 때는 한 번에 많은 코드를 붙여 놓고 설명하는 방식이 아니라 정성스럽게 최소 의미 단위로 나누어 설명한다. 이를 통해 책을 읽으면서 직접 실습을 못해보는 상황이더라도 주피터 노트북을 통해 직접 실습해보는 듯한 경험을 할 수 있었다.

이 책의 제목 처럼 '어쩌다 데이터 분석'을 해야 하는 상황이 생긴다면, 서점에 가서 이 책 한 권을 들고 나오면 파이썬의 기초, 라이브러리의 활용법, 데이터 분석의 방법들, 그리고 실전 적용 예제까지 폭넓은 (하지만 얕은..?) 데이터 분석에 대해 익힐 수 있을 것이다.

 

우리는 직관을 믿고 싶어 하지만, 직관이 완전히 잘못되는 경우가 많다는 것은 널리 알려진 사실이다.
<실험의 힘>


	

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

전 알리바바 회장이었던 마윈 회장은 21세기가 데이터의 시대라고 정의했었다. 가히 지금은 데이터의 시대라 할만하다. 기업도 개인도 데이터가 가장 중요하다. 여기도 데이터 저기도 데이터...또한 지금은 데이터 홍수의 시대라 할만하다. 문제는 누가 언제 어떻게 데이터를 이용할 것인가도 중요하지만, 데이터 홍수속에 내가 원하는 데이터의 옥석을 가리는 것도 매우 중요하다. 덧붙여 데이터를 각자의 도메인에서 이용하려면 옥석도 가려야 하지만, 필요한 곳에 적절하게 정제하고 가공해서 투입하고, 디시젼 메이킹에 사용할 유용한 분석이 더더욱 중요한 시대가 되었다.

 

보통 데이터 분석은 파이썬으로 수행된다. 이 책은 데이터 분석에 입문하는 초보자들에게 안성마춤 책이다. 더구나 저자는 데이터 분석 전공자도 아니다. 이 책의 매력은 데이터 분석을 너무 어려운 분야로 오인해서 소위 넘사벽이라는 선입견을 갖고 도전조차 주저하는 사람들에게 추천할 수 있다는 것이다. 그래서 이 책의 목차를 보면 데이터 분석에 꼭 필요한 내용만 담고 있다는 느낌이다. 기본적인 데이터의 가공 및 처리에 중점을 두고 그냥 저자가 따라오라고 한 길만 쫓다 보면 데이터 분석의 핵심을 배우게 되는 책이다. 아무래도 비전공자의 경험, 직접 하나 하나 체험하면서 배웠던 그 실체에서 나오는 내공을 느낄 수 있는 책이다. 마지막 책장을 덮을 때는 나도 데이터 분석을 할 수 있다라는 자신감을 갖게 하는 것도 책을 읽은 사람만이 더불어 받는 선물같다. 

 

이 책은 파이썬으로 데이터 분석을 시작하고 싶은 사람에게 어울리는 책입니다. 이 책을 보는데 필요한 기초 파이썬 지식도 나름 설명하고 있습니다. 파이썬 데이터 분석에 필요한 아나콘다 설치부터 설명하고 있어서 입문자가 따라하기에 괜찮은 책입니다.

 

챕터1~3은 데이터 분석 기초이기 때문에 순서대로 차근차근 읽어도 되지만 챕터 4~7은 무슨 내용이 있는지 대강만 알고 필요할 때 찾아보면 될 것 같습니다. 병합, 피벗, groupby와 같은 내용은 데이터분석에 익숙해지기 전에 배우기보단 쓰면서 필요성을 느끼고 적용하면 될 것 같습니다.

 

챕터1에서는 개발환경을 세팅하고 파이썬 기초문법을 설명합니다. 챕터2에서부터 데이터 분석에 꼭 필요한 라이브러리인 넘파이(numpy), 판다스(pandas) 라이브러리를 배웁니다. 챕터3 이후로는 본격적으로 판다스를 활용하여 데이터를 다루게됩니다. 챕터7에서는 데이터 시각화 라이브러리인 맷플롯립(matplotlib), 시본(seaborn) 사용법과 각종 그래프의 종류를 알아봅니다.

 

이 책을 읽으며 좋았던 점은 마지막 ‘챕터8 데이터 분석: EDA 실습’ 부분이었습니다. 1장부터 7장까지 보면서 라이브러리가 뭔지는 대강 알겠는데 어떻게 활용할지는 막막했습니다. 근데 마지막 실습을 직접 하나하나 따라해보니 확실히 감을 잡을 수 있네요. 아주 고난도 테크닉을 배우는건 아니지만 자주 사용하는 데이터 분석 방식을 익힘으로서 다음에 다른 데이터를 만나도 비슷하게 따라할 수 있을 것 같습니다. 

 

다른 전문성이 깊은 데이터 분석 책들은 방대한 내용에 압도되기 쉬운데 이 책은 그렇지 않고 초보자가 보기에도 만만해서 좋았습니다. 뭔가 나도 따라할 수 있을 것 같은 느낌. 다시 한번 말하지만 순서대로 모든 내용을 다 알려고 하지말고 대강 읽어가며 마지막 8장의 실습을 해보는 것을 추천합니다.

 

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

 

 

지은이는 UX관련 전공을 한 후 데이터 관련 업무를 하면서 필요한 지식을 공부하면서  '원리 이해 -> 실습과 실행 -> 나만의 정리' 라는 과정을 반복하는 것을 터득하면서 이 책을 입문자 입장에서 책을 쓰기 시작하였다고 합니다.

전공자는 전공자의 눈으로 쓰다 보니 조금은 어렵게 작성되는 부분이 있는데~

이 책은 비전공자의 시각으로 글을 작성하여 구성 또한 입문자의 입장에서 전혀 부담없는 구성으로 이루어져 있습니다.

 

구성을 살펴 보면 다음과 같습니다.

1장 데이터 분석 준비

파이썬의 기본 내용과 데이터 분석을 위한 핵심라이브러리(넘파이,판다스,맷플롯립,시본)등을 살펴 봅니다.

2장 데이터 분석 기본

데이터 분석의 기본이 되는 넘파이,판다스 등을 이용해 데이터를 로딩 하고 컬름을 다루는 테크닉에 대해 알아 봅니다.

3장 데이터 정제와 응용

조건식을 활용해서 데이터를 필터링 하는 방법과 결측값,이상값 등을 처리하는 방법을 살펴 봅니다.

4장 데이터 병합과 재형성

서로 다른 데이터프레임을 병합 하거나 특징들을 합해서 새로운 형태의 데이터를 만드는 방법 들에 대해 다루고 있습니다.

5장 데이터 집계와 그룹연산

같은 그룹의 데이터를 집계하거나 피벗 테이블과 크로스탭을 활용하는 방법을 살펴 봅니다.

6장 날짜시간 데이터 처리

날짜 타입의 데이터를 처리하는 방법에 대해 살펴 봅니다.

7장 데이터 시각화

맷플립롭과 시본을 이용해서 각 특징들의 그래프를 이용하여 시각화 하는 방법 등을 살펴 봅니다.

 

서평

제가 이 책을 신청한 이유는 인공지능을 공부하면서 데이터 분석하는 것이 어렵기 때문에 자유자재로 데이터를 다루고 싶어서 신청하게 되었습니다.

이 책을 읽으면서 느끼는 것은 데이터 분석의 최고의 입문서가 되지 않을까 라는 생각을 했는데요~

그 이유는 다음과 같습니다.

1. 입문자를 고려해서 파이썬의 중요한 문법을 다시한번 훑어 본다.

 

파이썬의 기본 문법을 정리했다.

 

 

2. 데이터 분석의 기본이 되는 넘파이와 파이썬에 대해 상세하게 다루고 있다.

 

잘 몰랐던 판다스의 옵션을 하나 하나 살펴 볼 수 있다.

 

 

3. 데이터를 정제하는 방법 과 시각화 툴을 다루는 방법을 상세하게 다루고 있다.

 

시각화 툴에서 color을 지정하는 방법 외에 다양한 옵션을 활용하는 방법을 보여주는 예

 

 

 

제가 생각하는 인공지능은 빅데이터를 이용해서 확률을 계산하는 알고리즘인데요~

빅데이터에는 확률을 계산하는데 필요 없는 쓸모 없는 데이터들이 많이 존재하게 됩니다.

인공지능을 공부하다 보면 처음 접하는 문제가 타이타닉에서 생존률을 구하는 문제를 먼저 만나게 되는데요~

타이타닉 문제에서 티켓번호 같은 경우 생존률과 전혀 무관한 데이터 입니다. 오히려 나이/성별 같은 경우는 어린 아이나 고령의 나이 인 경우 살 확률이 높았고 여성인 경우 남성보다 살 확률이 높았습니다.

하지만 빅 데이터에서는 이렇게 우리가 알 수 있는 특징들만 주어지는 것은 아닙니다.

이것이 어떤 특징 데이터 인지 모르는 상황에서 데이터를 분석해야 하는 경우도 많고 어떤 특징이 결과에 영향을 끼치는지 알 수가 없습니다.

이럴 때 데이터 분석이 필요한데 판다스나 넘파이, 시각화 툴을 이용해서 데이터 분석을 통해서 어떤 특징들이 훈련에 필요한 데이터를 찾아 낼 수 있는데요~

 

이 책은 이러한 데이터 분석이 필요한 분들에게 너무나 유용한 책인 것 같네요.

 "한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

 

https://blog.naver.com/tnsgh9603/222905376357

 

이 책은 파이썬 데이터 분석을 위해 반드시 알아야 하는 pandas, numpy, matplotlib, seaborn 등 파이썬 핵심 라이브러리를 사용해서 효과적으로 데이터를 분석하고 시각화하는 방법에 대해 다루고 있습니다.

파이썬 데이터 분석 입문자를 위해 일반적인 데이터 분석 과정으로 내용을 구성했으며, 데이터 분석을 위한 중요한 핵심 함수와 처리 과정을 쉽고 간결하게 설명하고 있습니다.

마지막으로 넷플릭스 데이터셋으로 실무에 적용 가능한 데이터 전처리 및 시각화 과정을 실습해보는 시간을 통해 좀 더 확실하게 이해하고 넘어갈 수 있습니다.

 

● 2017년, MNIST

- 2017년, 어쩌다가 우리 팀에 새로 생긴 인공지능 파트의 파트장이 되어 머신 러닝에 발을 디뎠다.

- 파트원들에게 물어가며, 윗 분들의 적절한 보호를 받아가며, 때로는 의도적으로 거친 물살에 던져지는 조각배의 선장.

- 낮에는 회의를 다니고 밤에는 만삭의 아내를 재우고 인터넷을 뒤지며 독학을 하던 날들이었다.

- C언어, Matlab, 파이썬을 배울 때의 첫 관문은 "Hello, World!"라는 문장을 출력하는 것이었는데 텐서플로는 좀 달랐다.

- 너무나 당연하지만 데이터를 입력해 학습을 시켜야 하니 작은 신경망을 꾸미고 데이터를 넣는 것이 첫 관문이었다.

- 존재는 알고 있었지만 굳이? 라는 생각에 외면해오던 pandas와의 첫 대면이었다.

 

● pandas vs numpy

- 2008년에 파이썬을 시작했으니 시기로 치면 제법 오래됐지만 pandas는 사용하지 않고 있었다.

- 파이썬에서 쓰는 엑셀 정도로 이야기를 듣기는 했지만 당시 내가 짜던 코드를 기준으로 numpy에서 모두 처리가 가능했기 때문에 아쉽지가 않던 것이 가장 큰 이유.

- 우리 파트의 똘똘한 선임이 pandas는 R을 어설프게 베낀 것이라고 해준 설명에 내 시선부터가 삐딱했고

- "pandas 없이 어떻게 코딩해요? 전 못할 것 같은데 ㅎ"라는 분도 있었으나 2차원 리스트 처리를 벗어나지 않던 당시의 내 사고 범위로는 "없어도 되는데? 저 분은 코딩을 너무 쉽게 배우기 시작하셨나"라는 생각마저 들었다.

- 결론적으로 나의 경험 부족에서 온 오판이었다. 데이터 분석을 일반 코딩 정도로 생각하고 있었던 게 문제였다.

- 데이터를 다양한 관점에서 돌려보며 취합과 인자간 연산을 여러 가지로 반복해야 하며, 특정 조건에 부합하는 것들만 추출을 해야 했다.

- 그리고 이런 일은 pandas 없이 매우 어려운 게 맞다.

- 수치해석 라이브러리 numpy만 써서도 가능은 하지만 굳이 스스로의 업무 난이도를 높이는 일일 뿐이다.

 

● pandas vs 엑셀

- pandas는 엑셀로 할 수 있는 일을 모두 할 수 있다.

- 일반 가정에서 가계부를 쓰는 것처럼 데이터를 읽고 부분합 등을 구하는 일부터

- 여러 엑셀 시트에서 서로 관계된 부분을 찾아 데이터를 치환하거나 합치는 일,

- 불러온 데이터에 특정 함수를 적용해 새로운 시각에서 데이터를 바라보는 일,

- 그리고 데이터를 그 자리에서 그림으로 표현하는 일까지 엑셀과 동일하게 가능하다.

- 엑셀과 구분되는 가장 큰 차이는 마우스 클릭이 아니라 키보드 입력을 사용한다는 점.

- 단순 업무를 매우 효과적으로 반복할 수 있다는 장점이 됨과 동시에 내가 내린 명령의 결과가 즉시 화면에 보이지 않는다는 단점이 된다.

- 주피터 노트북 환경이라면 코드 한 줄을 추가해 즉시 화면에 띄워볼 수 있지만 이 역시 엑셀보다 성가시다.

- .py 파일이라면 문제가 조금 더 심각해서 머리 속으로 상상하며 진행해야 한다.

- 데이터 분석이 노트북 환경에서 주로 진행이 되는 이유이자 여러 커뮤니티에서 초심자들이 "이거 어떻게 해요?"하는 질문 중 적잖은 비중을 차지한다.

 

● 엑셀 사용자가 pandas에 익숙해지려면 연습이 필요하다.

- 셀을 긁어 선택하던 방식을 명령어를 사용하는 거으로 바꾸는 것도 시행착오가 필요하고 - 인덱스가 비어있거나 중복된 경우가 낯설다

- 일부 열을 삭제하거나 새 열을 추가하는 과정이 클릭보다 덜 직관적이다.

- 데이터가 비어있는 결측값은 황당한 오류의 원인이 되기 때문에 채우는 방법도 배워야 하고

- 통계적인 방법으로 이상값을 찾아 처리하는 방법은 quantile이니 IQR이니 하는 개념부터 익혀야 한다.

- 여기에 문자열을 다루는 정규 표현식, 시간 데이터 형식인 datatime이 가세하면 일단 창을 닫고 쉬고 싶어진다.

- 구글링으로 하나 하나 해결하기에는 유달리 여러 문제가 동시에 날아온다.

- pandas의 알맹이는 numpy array이기 때문에 numpy에 대한 지식은 기본으로 깔고 가야 한다.

 

● pandas는 날을 잡고 한 번쯤 마스터할 필요가 있다.

- 하루 이틀, 길어야 며칠 집중하는 것을 마스터한다고 하기엔 어폐가 있지만 다른 일 없이 pandas만 붙잡고 쭉 나갈 필요가 있다.

- 인덱스 컨트롤, 일부 행이나 열 선택, 결측값과 이상값 처리 등을 띄엄띄엄 배우면 헷갈릴 여지가 많기 때문이다.

- pivot table, merge 등 테이블을 다루는 기술은 집중해서 기본기를 익숙하게 한 뒤에 필요할 때마다 하나씩, 그러나 확실하게 익히는 편이 좋다.

- 개인적으로 groupby와 pivot_table을 이상하게 많이 헷갈렸던 기억이 난다.

- apply는 한 번 제대로 익혀서 계속 잘 쓰고 있는데도 남의 코드를 보면 내가 모르는 신기한 기술이 종종 보인다.

- pandas에 갖춰진 편의 기능은 생각보다 많고 다양하다.

- 이런 기능의 존재를 아는 사람과 모르는 사람이 정리하는 데이터는 속도와 결과물의 질이 달라질 수밖에 없다.

 

● 파이썬 기본부터 pandas 기능까지

- 파이썬으로 데이터 분석을 업으로 삼겠다는 사람이라면 pandas 없이 살 수 없는 것이 정상이다.

- 바꿔 말하면, pandas를 잘 모르는 사람은 파이썬 기본 문법도 익숙하지 않을 확률이 높다. 

- 수치해석 등에만 파이썬을 오래 쓰던 사람이 pandas에 손을 뻗었을 때 정도가 예외가 될 것이다.

- 이 책은 파이썬 설치부터 기본 문법을 거쳐 비로소 pandas에 인도한다.

- 파이썬에 익숙한 독자라면 건너뛰어도 되지만 그렇지 않다면 다행이라는 생각이 들 수도 있다.

- 데이터 분석에만 집중하는 강의들이 파이썬 기초 명령을 생략하는 경우가 있는데 초보자들에게는 너무나 어렵게 느껴지기 때문이다.

- UX 관련 전공자인 저자가 제목을 "어쩌다 데이터 분석"이라고 지은 이유는 본인처럼 어쩌다 데이터 분석의 길에 들어선 이들에게 길잡이가 되고 싶기 때문이었을 것이다.

- 저자의 의도가 충분히 전달되기를 바라며, 휴일 등을 이용해 집중해서 저자의 내공을 흡수하길 바란다.

- 시간을 끌면 더 헷갈리는 게 pandas다.

 

 

 

 

IMG_20221013_102530.jpg

 

IMG_20221013_102535.jpg

 

IMG_20221013_102541.jpg

 

 

데이터 분석에 필요한 Python 문법 부터 데이터의 구조를 알 수 있는 코드에 대한 꼼꼼한 설명이 돋보이는 책인듯 합니다.

우선, 책을 차근차근 실습하다 보면 자연스럽게 파이썬 코드에 익숙해질 수 있도록 구성했는것 같습니다.

 

첫째 챕터에서는 파이썬이랑 친해질 수 있도록 파이썬이 무엇인지, 아나콘다와 주피터 노트북 설치하고 다루는 방법, 데이터 분석하는데 필요한 기본 개념(변수, 함수, 패키지 등)을 알아볼 수 있습니다. 또한 데이터 구조와 주요 라이브러리를 배울 수 있게 준비되어 있어서 매력적인것 같습니다. 앞쪽에 책에 대하여 부분에서 파이썬 기초를 알고 있는 독자를 전제한다고 했는데, 알고 있지 않아도 충분히 따라 올 수 있는 것 같습니다. 또한 챕터가 진행될 수록 파이썬으로 데이터를 본격적으로 다뤄보고, 데이터 구조 파악, 추출, 합치기, 그래프 만들기 등 여러 실습을 통해 파이썬을 다루는 방법을 익힐 수 있는 구조로 되어있어서 쉽네요. 특히 넘파이와 판다스에 대한 자세한 설명이 돋보이는 것 같습니다. 

 

두번째 챕터 부터는 데이터 분석에 대한 기초 지식을 활용해서 다양한 예제로 데이터 분석을 할 수 있습니다. 여러 실습에 대한 설명과 예시가 잘 나와있어서 책을 보고 차근차근 따라할 수 있도록 구성되어 있어요.

 

마지막 장에서는 넷플릭스 컨텐츠 데이터를 활용하여 다양하게 데이터를 다룰 수 있는 방법과 자주 사용하는 자료 구조를 살피고, 데이터 분석 기술을 효율적으로 익힐 수 있는 방법을 주로 알아볼 수 있게 되어 있어서 흥미를 느낄 수 있었던것 같습니다. 

만약 혼자 계획을 세워서 데이터 분석에 대한 공부를 시작하려해도 중도 포기 없이 체계적으로 끝까지 완주할 수 있도록 잘 구성되어 있는것 같습니다.

 

그래서 이 책에서 정말 마음에 들었던 점은!

 

구성된 마당마다 직접 할 수 있는 실습 문제가 많이 수록되어 있고, 마지막에는 각 마당에서 배웠던 내용을 정리해주는 부분도 있어요. 실습에 대한 정답 및 해설도 프로그래밍 한 화면을 같이 보여줘서 혼자서 복습 할 때 쉽게 이해할 수 있게 되어 있습니다.

 

책 한권을 끝냈다고 해서 하루아침에 "나 파이썬 고수다!"라고 말할 수는 없겠지만, 누구나 이해하기 쉽고 따라할 수 있도록 구성되어 있어서 좋았습니다.

 

  "한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

부록/예제소스
자료명 등록일 다운로드
DOWNLOAD 예제소스 2022-10-28 다운로드
결제하기
• 문화비 소득공제 가능
• 배송료 : 2,000원배송료란?

배송료 안내

  • 20,000원 이상 구매시 도서 배송 무료
  • 브론즈, 실버, 골드회원이 주문하신 경우 무료배송

무료배송 상품을 포함하여 주문하신 경우에는 구매금액에 관계없이 무료로 배송해 드립니다.

닫기

도서판매처

리뷰쓰기

닫기
* 도서명 :
어쩌다 데이터 분석 with 파이썬
* 제목 :
* 별점평가
* 내용 :

* 리뷰 작성시 유의사항

글이나 이미지/사진 저작권 등 다른 사람의 권리를 침해하거나 명예를 훼손하는 게시물은 이용약관 및 관련법률에 의해 제재를 받을 수 있습니다.

1. 특히 뉴스/언론사 기사를 전문 또는 부분적으로 '허락없이' 갖고 와서는 안됩니다 (출처를 밝히는 경우에도 안됨).
2. 저작권자의 허락을 받지 않은 콘텐츠의 무단 사용은 저작권자의 권리를 침해하는 행위로, 이에 대한 법적 책임을 지게 될 수 있습니다.

오탈자 등록

닫기
* 도서명 :
어쩌다 데이터 분석 with 파이썬
* 구분 :
* 상품 버전
종이책 PDF ePub
* 페이지 :
* 위치정보 :
* 내용 :

도서 인증

닫기
도서명*
어쩌다 데이터 분석 with 파이썬
구입처*
구입일*
부가기호*
부가기호 안내

* 온라인 또는 오프라인 서점에서 구입한 도서를 인증하면 마일리지 500점을 드립니다.

* 도서인증은 일 3권, 월 10권, 년 50권으로 제한되며 절판도서, eBook 등 일부 도서는 인증이 제한됩니다.

* 구입하지 않고, 허위로 도서 인증을 한 것으로 판단되면 웹사이트 이용이 제한될 수 있습니다.

닫기

해당 상품을 장바구니에 담았습니다.이미 장바구니에 추가된 상품입니다.
장바구니로 이동하시겠습니까?

자료실