메뉴 바로가기 검색 및 카테고리 바로가기

한빛미디어

파이썬 라이브러리를 활용한 데이터 분석(2판)

영화 평점, 이름 통계, 선거 데이터 등 실사례 사용

한빛미디어

집필서

판매중

초급 초중급 중급 중고급 고급
4.4점 (8명)
좋아요 : 3

빅데이터 분석에 관한 가장 완벽한 교재! 

 

이 책은 NumPy, pandas, matplotlib, IPython, Jupyter 등 다양한 파이썬 라이브러리를 사용해서 효과적으로 데이터를 분석하는 방법을 알려준다. pandas의 새로운 기능뿐만 아니라 메모리 사용량을 줄이고 성능을 개선하는 고급 사용법까지 다룬다. 또한 모델링 도구인 statsmodels와 scikit-learn 라이브러리도 소개한다. 연대별 이름 통계 자료, 미 대선 데이터베이스 자료 등 실사례로 따라 하다 보면 어느덧 여러분도 데이터에 알맞게 접근하고 효과적으로 분석하는 전문가가 될 것이다. 

 

 

『파이썬 라이브러리를 활용한 데이터 분석』 드디어 개정!

 

이 책의 초판이 출간된 2012년은 pandas 개발 초기로, 파이썬용 오픈소스 데이터 분석 라이브러리가 흔하지 않았습니다. 이번에 pandas의 새로운 기능과 5년여간의 세월이 흐르는 동안 낡았거나 사용법이 바뀐 내용을 모두 반영하여 책 전반을 다시 다듬었습니다. 또한 당시에는 존재하지 않았거나 책에 싣기에는 불안했던 갓 나온 도구들을 새로 소개하는 내용을 추가했습니다. 2판의 주요 변경 사항은 다음과 같습니다.

  • 모든 코드를 파이썬 3.6 기반으로 수정
  • 아나콘다 파이썬 배포판과 몇몇 필수 파이썬 패키지로 설치
  • 최신 pandas 라이브러리 사용
  • pandas 고급 사용법과 사용팁 추가
  • statsmodels와 scikit-learn 라이브러리 소개

 

이 책에서 다루는 내용

 

이 책은 파이썬으로 데이터를 다루는 다양하고 기본적인 방법을 소개합니다. 그러기 위해 파이썬 프로그래밍 언어의 일부와 데이터 분석 문제를 효율적으로 해결하는 데 도움이 되는 몇 가지 라이브러리를 다룹니다. ‘데이터 분석’이 이 책의 제목이긴 하지만 데이터 분석 방법론이 아니라 파이썬 프로그래밍, 라이브러리, 도구에 집중합니다. 주요 내용은 다음과 같습니다.

  • IPython 셸, 주피터 노트북 사용하기
  • NumPy 기본 및 고급 기능 알아보기
  • pandas로 데이터 분석 입문하기
  • 유연한 도구를 사용해 데이터 로딩, 정제, 조인, 병합, 변형하기
  • matplotlib으로 유용한 시각화 만들기
  • pandas groupby 기능을 적용해 데이터를 나누고 요약하기
  • 시계열 데이터 분석 및 조작하기
저자

웨스 맥키니

뉴욕에서 활동하는 소프트웨어 개발자이자 기업가다. 2007년 MIT 수학과 학부 과정을 마치고 코네티컷 주 그린위치에 있는 AQR 캐피탈 매니지먼트에서 금융 분석가로 근무했다. 복잡하고 느린 데이터 분석 툴에 실망하여 2008년 파이썬을 배우면서 pandas 프로젝트를 시작했다. 파이썬 데이터 커뮤니티의 활발한 일원이며 데이터 분석, 금융, 통계 계산 애플리케이션에서 파이썬 사용을 독려하고 있다. 창업한 DataPad가 2014년 클라우데라에 인수된 이후 빅데이터 기술에 집중했으며 아파치 소프트웨어 재단의 프로젝트인 아파치 애로우와 아파치 파케이의 Project Management Committee(프로젝트 관리 위원)로 합류했다. 2016년에는 뉴욕에 위치한 투시그마 투자사로 옮겨 오픈소스를 활용해 빠르고 쉬운 데이터 분석 환경을 만드는 데 노력을 기울이고 있다.

 

역자

김영근

애플 II에서 BASIC으로 프로그래밍을 시작했고, 장래 희망을 항상 프로그래머라고 말하고 다니다 정신 차리고 보니 어느덧 20년 차 중년(?) 개발자가 되었다. 리눅스 커뮤니티에서 오랫동안 활동했으며 임베디드부터 미들웨어, 웹, 스마트폰 애플리케이션에 이르기까지 다양한 분야에서 개발했다. 아시아인 최초로 파이썬 소프트웨어 재단 이사로 활동했으며 2014년 첫 ‘PyCon 한국’을 개최했다. 한빛미디어에서 『리눅스 시스템 프로그래밍(개정2판)』, 『고성능 파이썬』을 번역했다.

 

CHAPTER 1 시작하기 전에

1.1 이 책에서 다루는 내용

1.2 왜 데이터 분석에 파이썬을 사용하나

1.3 필수 파이썬 라이브러리

1.4 설치 및 설정 

1.5 커뮤니티와 컨퍼런스

1.6 이 책을 살펴보는 방법

 

CHAPTER 2 파이썬 언어의 기본, IPython, 주피터 노트북

2.1 파이썬 인터프리터 

2.2 IPython 기초

2.3 파이썬 기초 

 

CHAPTER 3 내장 자료구조, 함수, 파일

3.1 자료구조와 순차 자료형 

3.2 함수

3.3 파일과 운영체제  

3.4 마치며

 

CHAPTER 4 NumPy 기본: 배열과 벡터 연산

4.1 NumPy ndarray: 다차원 배열 객체 

4.2 유니버설 함수: 배열의 각 원소를 빠르게 처리하는 함수 

4.3 배열을 이용한 배열지향 프로그래밍

4.4 배열 데이터의 파일 입출력

4.5 선형대수

4.6 난수 생성  

4.7 계단 오르내리기 예제

4.8 마치며 

 

CHAPTER 5 pandas 시작하기

5.1 pandas 자료구조 소개

5.2 핵심 기능

5.3 기술 통계 계산과 요약

5.4 마치며 

 

CHAPTER 6 데이터 로딩과 저장, 파일 형식

6.1 텍스트 파일에서 데이터를 읽고 쓰는 법

6.2 이진 데이터 형식

6.3 웹 API와 함께 사용하기 

6.4 데이터베이스와 함께 사용하기

6.5 마치며 

 

CHAPTER 7 데이터 정제 및 준비

7.1 누락된 데이터 처리하기 

7.2 데이터 변형 

7.3 문자열 다루기 

7.4 마치며 

 

CHAPTER 8 데이터 준비하기: 조인, 병합, 변형

8.1 계층적 색인

8.2 데이터 합치기 

8.3 재형성과 피벗 

8.4 마치며 

 

CHAPTER 9 그래프와 시각화

9.1 matplotlib API 간략하게 살펴보기

9.2 pandas에서 seaborn으로 그래프 그리기

9.3 다른 파이썬 시각화 도구 

9.4 마치며 

 

CHAPTER 10 데이터 집계와 그룹 연산

10.1 GroupBy 메카닉

10.2 데이터 집계  

10.3 Apply: 일반적인 분리-적용-병합

10.4 피벗테이블과 교차일람표 

10.5 마치며 

 

CHAPTER 11 시계열

11.1 날짜, 시간 자료형, 도구  

11.2 시계열 기초  

11.3 날짜 범위, 빈도, 이동  

11.4 시간대 다루기  

11.5 기간과 기간 연산

11.6 리샘플링과 빈도 변환  

11.7 이동창 함수  

11.8 마치며 

 

CHAPTER 12 고급 pandas

12.1 Categorical 데이터

12.2 고급 GroupBy 사용

12.3 메서드 연결 기법

12.4 마치며 

 

CHAPTER 13 파이썬 모델링 라이브러리

13.1 pandas와 모델 코드의 인터페이스  

13.2 Patsy를 이용해서 모델 생성하기  

13.3 statsmodels 소개  

13.4 scikit-learn 소개 

13.5 더 공부하기  

 

CHAPTER 14 데이터 분석 예제

14.1 Bit.ly의 1.USA.gov 데이터  

14.2 MovieLens의 영화 평점 데이터  

14.3 신생아 이름  

14.4 미국농무부 영양소 정보  

14.5 2012년 연방선거관리위원회 데이터베이스  

14.6 마치며 

 

APPENDIX A 고급 NumPy

A.1 ndarray 객체 구조  

A.2 고급 배열 조작 기법

A.3 브로드캐스팅 

A.4 고급 ufunc 사용법  .

A.5 구조화된 배열과 레코드 배열  

A.6 정렬에 관하여 

A.7 umba를 이용하여 빠른 NumPy 함수 작성하기  

A.8 고급 배열 입출력  

A.9 성능 팁  

 

APPENDIX B IPython 시스템 더 알아보기

B.1 명령어 히스토리 사용하기  

B.2 운영체제와 함께 사용하기  

B.3 소프트웨어 개발 도구  

B.4 IPython을 이용한 생산적인 코드 개발에 관한 팁  

B.5 IPython 고급 기능  

B.6 마치며  

“이미 필독서가 된 이 책이 업그레이드되었다. 2판에는 파이썬 3.6부터 pandas 최신 기능에 이르기까지 이 책의 가치를 더 향상시킬 내용이 담겼다. 왜 파이썬 라이브러리인지, 이 도구들을 어떻게 다뤄야 하는지 설명해 독자가 새롭고 창의적인 방식으로 효율적인 사용법을 익히도록 도와준다.”

- 페르난도 페레즈(Fernando Pérez)_ IPython 창시자, UC 버클리 통계학과 조교수

  •  

    이 책은 구판이 1.5만부 이상 팔린 베스트셀러다.

     

    이유는 간단하다. 파이썬에서 데이터를 다루는 라이브러리는 pandas가 가장 유명한데, 책의 저자인 웨스 맥키니가 바로 그 pandas의 창시자이기 때문이다. 

     

    pandas에 대해서라면 누구보다도 잘 설명할 수 있는 사람이 초보자를 위해 기초부터 알려주니 내용이 좋을 수밖에 없다. '왜 이런 함수를 이렇게 사용해야 하는지', '어떤 생각에서 이런 형태로 동작하도록 설계했는지'에 대한 저자의 경험과 생각 역시 본문에 잘 녹아져 있어서 이해에 도움이 된다. 

     

    또한 이 책은 pandas 학습서에만 그치지 않는다. 도서 제목처럼, [데이터 분석]이 주제이기 때문에, IPython & Jupyter notebook, numpy, pandas, matplotlib 등 파이썬을 활용한 데이터 분석에 필요한 주요 라이브러리를 제대로 다루고 있다. 특히 저자의 numpy 에 대한 설명은 간결하고 뛰어나다. pandas 자체의 내부 핵심 기반이 numpy 이기 때문에 그럴만도 하지만 말이다.

     

    이 책의 1판은 pandas가 아직 초기 버전일 때 출간되었기 때문에, 지금 pandas를 다루는 사람들에게는 조금 안 맞는 부분이 있었다. 예를 들면, 구판에는 데이터 선택 시 .ix 메서드를 자주 사용했었다. 하지만 pandas의 최신 버전들은 .ix 메서드를 더 이상 지원하지 않을 예정이라, 개정판에서는 .ix가 아니라 .iloc/.loc 로 사용하도록 추천하고 있다. 

     

    pandas에 대한 설명을 2017년 버전 이후 기준으로 변경했다는 점 외에, 다른 변경사항 중에는 다음 내용이 주로 눈에 띈다. 

     

    - Python을 3.6 버전 기반으로 변경

    - pandas의 고급 사용법과 활용팁을 담은 내용 추가

    - statsmodels와 scikit-learn 라이브러리 사용에 대한 간략한 소개 추가

     

    이 책은 일단 두께가 두툼하다. 그만큼 내용도 충실하다. 파이썬와 그 생태계를 이용해서 데이터 분석을 시작하는 사람에게 언제나 첫손에 꼽히는 추천도서였는데 더 좋아졌다. 

     

    국내·외를 막론하고 데이터 분석을 하기 위해 numpy와 pandas를 배우고 싶은 사람에게 언제나 첫손에 꼽히는 교과서급 책으로, 파이썬으로 데이터 분석을 시작하기 위한 모든 것이 담겨있다고 생각한다.

  • 주변에서 판다스 책을 추천해 달라는 얘기를 들으면 이 책을 가장 우선으로 추천하곤 했다. 제목은 파이썬 라이브러리를 활용한 데이터 분석이지만 이 책 만큼 판다스를 잘 다루고 있는 책은 드물 것이다. 왜냐면 이 책은 판다스 라이브러리를 개발한 웨스매키니가 직접 쓴 책이기 때문이다.

    수학을 전공한 웨스매키니는 R에서 영향을 받아 판다스 라이브러리를 만들었다고 한다. 또, 증권사에서 퀀트로 일했기 때문에 행과열로 된 데이터 뿐만 아니라 시계열 데이터를 다루기도 좋다. 그리고 내부적으로 Numpy 라이브러리를 수치계산 라이브러리로 사용하고 있기 때문에 계산도 빠른 편이다. 데이터분석, 전처리, 피처엔지니어링, 시각화, 시계열 분석, 업무 자동화 등 판다스는 다양한 분야에서 활용되고 있다.

    또, 비전공자나 비개발자들이 프로그래밍을 배우고 싶다고 뭐부터 배우면 좋을지 물어보면 판다스 라이브러리를 가장 많이 추천한다.

    엑셀은 전공이나 도메인에 무관하게 사용되고 있다. 그런데 엑셀의 치명적인 단점이 대용량 데이터를 다루기에 적합하지 않다는 것이다. 100만줄 이상의 엑셀파일을 불러온 경험이 있는 사람이라 면 그 데이터를 로드하는 것도 힘들지만 컬럼하나를 추가하거나 간단한 수식을 추가하기 위해서도 우리의 많은 인내심을 요구하게 된다.

    그런데 같은 파일을 판다스로 읽어온다면 내 컴퓨터의 메모리가 허락하는 한도내에서 데이터를 로드해서 전처리를 자유롭게 할 수 있고 파이썬 스크립트를 작성해 놓으면 매달 혹은 매주, 매일 >반복되는 업무에서 파일위치만 변경해 주면 반복된 작업을 엑셀만을 사용하는 것보다 간편하게 처리할 수 있다.

    이 책의 초판이 출판된지 시간이 많이 지나서 2판이 나왔으면 좋겠다는 생각을 종종 해왔는데 이렇게 2판이 출판되었을 때 반가운 마음이 들었다.

    또, 이 책은 판다스 뿐만 아니라 책의 초반부를 파이썬 기초 문법에 할애하고 있다. 이 책을 통해 파이썬을 처음 배우는 초심자라면 꼭 필요한 파이썬 기초도 함께 배울 수 있다.

    책 표지 - 만약 판다곰이 판다스와 관계가 있다면 표지가 판다곰이지 않았을까 싶지만, 판다곰과 Pandas는 아무런 상관이 없기 때문에 표지에도 판다곰이 등장하지 않는다.

    2판이 나오며 개선된 내용이 정리되어 있다.

    목차 - bit.ly의 usa.gov 데이터로 실사례를 분석해 볼 수 있다. 타임존, 운영체제별 데이터를 집계해보는 예제가 있다.

    MovieLens의 데이터는 영화 평점 데이터를 텍스트와 함께 분석해 본다.

    신생아 이름은 1800년대부터 태어난 신생아의 이름을 분석해 보며, 특정 이름이 특정 시기에 유행을 하고 있다는 것을 볼 수 있다.

    이 외에도 미국 농무부의 영양소 정보라든지, 연방선거관리 위원회 데이터베이스를 볼 수 있다.

    matplotlib을 pandas 를 통해 더 간단하게 사용할 수 있는 코드를 안내한다.

    유행하는 이름의 트랜드를 시각화로 확인해 볼 수 있다.

    그리고 아래의 URL에 소스코드도 모두 공개가 되어 있다. 2판이 업데이트 되며, 2nd-edition 이라는 브랜치가 추가되었다.

    아래의 링크에서 colab으로 직접 실습이 가능하다. https://colab.research.google.com/github/wesm/pydata-book/blob/2nd-edition/ch02.ipynb

    github 소스코드는 아래 링크에서 확인해 볼 수 있다. wesm/pydata-book: Materials and IPython notebooks for “Python for Data Analysis” by Wes McKinney, published by O’Reilly Media

    •  

  • 이번에 리뷰할 책은 파이썬 라이브러리를 활용한 데이터 분석(http://www.hanbit.co.kr/store/books/look.php?p_code=B6417848794)입니다.
    데이터 분석으로 유명한 pandas 라이브러리를 개발한 웨스 맥키니가 쓴 책의 최신 개정판입니다. (쓸데는 없지만 구판은 표지의 두더지 방향이 우측을 향하고 있습니다. ^^)


    몇년전부터 머신러닝 딥러닝등 인공지능에 관한 관심이 뜨겁습니다.
    훈련 데이터로 가져와 학습을 시키고, 테스트 데이터로 예측을 하고, 시각화하고 결과를 분석하는식으로 동작하며
    주로 python, numpy, pandas등과 머신러닝 라이브러리등을 이용해서 이루어집니다.

    이런 데이타는 그냥 주어지는게 아니라 사전에 잘 정제하는 작업이 필요합니다.
    행과 열을 바꾼다던지 일부를 조작한다든지 빈값을 채운다던지, 
    대량의 데이타에서 SQL다루듯이 조건에 맞는 필터링도 필요합니다.
    원하는 데이타는 어떤 컬럼을 통해서 구해지는지 그런 컬럼이 데이타에 없다면 어떤 컬럼들을 조합이나 생성해서 만들어낼지
    에 대한 생각도 필요합니다.

    이 책은 650페이지정도 분량으로 해당 내용들을 다룹니다. 

    - 설치 ipython, jupyter notebook사용법등에서는 자동완성이나 매직명령어
    - 파이썬 기초: 리스트, 튜플, 사전(딕셔너리) ,날짜 함수 등등
    - numpy/pandas: 
    - 데이터 로딩 저장
    - 데이터 조입 병합 변형/ 집계 그룹연산
    - 시각화 matplotlib
    - 시계열데이터
    - 데이터 분석 예제


    주로 다루는 데이타가 리스트나 테이블 형태라
    연산결과를 전/후 데이타를 보여주느라 페이지수가 늘어나긴 하지만 이해에는 확실히 도움이 되네요.

    DB를 통하지 않고서도 pandas로도 꽤 많은 집합연산등을 할 수 있다는걸 알게되었고,
    빈 값이나 더미데이타를 제거하고, 테이블형태를 입맛에 맞게 잘라붙이거나 합치거나 행렬을 전치등을 꽤 자유롭게 해서
    전처리 작업에 꽤 유용할 거 같습니다.
     
    초반부 파이썬 기본문법에 어느정도 익숙해지셨다면 14장 데이터분석예제를 먼저 대략 살펴보시면 분석을 위해 무슨 무슨 단계가
    필요하다는 것을 파악한 후에 다시 앞으로 와서 관련 기능 및 사용법등을 익히면 좀 더 잘 받아들일수 있을거 같습니다. 그리고 axis(축)이나 브로드캐스팅등은 부록에 그림으로 설명을 먼저 읽어보시면 도움이 될 거 같습니다.

    날짜계산시 타임존관련 내용은 다국어버전도 고려한다면 주의해야 할 내용인거 같고, 
    데이터분석 예제는 영화 평점, 이름 통계,  선거 데이터 등 실사례들을 사용한 챕터인데
    주어진 데이타로 원하는 결과에 대한 답을 얻기 위해  단계별로 어떤 정보를 어떻게 조합해 만들어내는지 많은 도움이 된 파트였습니다.
    이 챕터 분량이 더 많았으면 좋겠다는 생각이 듭니다.

     

  • 한빛미디어의 <나는 리뷰어다> 6월 이벤트에 당첨되어 작성한 리뷰입니다.


    [한줄평]

    파이썬의 데이터 분석 라이브러리를 딥하게 공부하는 분들에게 추천합니다.


    [목차구성]

    이책은 총 CHAPTER 14로 구성되어 있습니다.


    1장: 시작하기 전에

    -> 왜 데이터 분석에 파이썬을 사용해야 하는지 필수 라이브러리는 어떤것이 있는지 기본적인 파이썬 환경 세팅을 설명 하고 있습니다.

    2장: 파이썬 언어의 기본, IPython, 주피터 노트북

    -> 파이썬 인터프리터 개념과 IPython, 주피터 노트북의 기초에 대해서 배울수 있습니다.

    3장: 내장 자료구조, 함수, 파일

    -> 파이썬의 자료구조와 순차 자료형, 함수, 파일과 운영체제의 개념을 배웁니다.

    4~5장 : NumPy, pandas

    -> NumPy의 기본 사용법과 pandas의 핵심 기능을 배웁니다.

    6~8장 : 데이터 로딩과 저장, 데이터 정제 및 준비하기

    -> 텍스트 파일에서 데이터를 읽고 쓰는 방법과 문자열 다루는 방법, 데이터 합치기 등을 배울수 있습니다.

    9~11장 : 그래프와 시각화, 데이터 집계, 시계열

    -> matplotlib API사용법과 pandas로 그래프 그리기, 피벗테이블과 교차 알림표 만들기, 시계열 기초를 배울수 있습니다.

    12~14장 : 고급 pandas, 파이썬 모델링 라이브러리, 데이터 분석 예제

    -> pandas의 고급 GroupBy 사용법과 메서드 연결 기법을 배우고, 파이썬 모델링 라이브러리의 소개, 데이터 분석 실전 예제를 배웁니다.

     

    [2판의 주요 변경 사항]

    모든 코드를 파이썬 3.6기반으로 수정

    아나콘다 파이썬 배포판과 몇몇 필수 파이썬 패키지로 설치

    최신 pandas 라이브러리 사용

    pandas 고급 사용법과 사용팁 추가

    statsmodels와 scikit-learn 라이브러리 소개

     

    [서평]

    이책은 데이터분석을 하기전에 필요한 선행 학습에 대해서 진철하게 잘 설명하고 있습니다.

    보통 데이터 분석 책들을 보면 데이터 분석에 중점을 두고 설명을 하는데 이책은 처음 파이썬을 시작한다는 가정하게 설명을 하고 있습니다. 그래서 파이썬을의 기초 문법 부터 데이터 분석에 필요한 라이브러리(NumPy, pandas, matplotlib, IPython, Jupyter, SciPy, scikit-learn, statsmodels)등을 자세하게 소개하고 있다.  기본적인 파이썬 기능에 대해 설명 후 데이터 수집, 처리,분석,시각화 리포팅까지 잘 설명해주고 있다. 파이썬의 pandas, Numpy, ipython, 주피터 노트북 등 라이브러리를 활용하여 일반적으로 처리하기 힘든 데이터를 손쉽게 처리하고자 하는 개발자 혹은 사이언티스트에게 어떻게 사용해야 하는지 알려주는 좋은 교재가 될것이라 생각합니다.


    PS. 파이썬의 어떤 책보다 NumPy를 자세하게 설명하고 고급 기능 까지 잘 알려주는 책입니다. NumPy를 좀더 깊게 공부하고 싶으면 일독하기를 권합니다.

  • 발매 시작된지 2달이 채 되지 않은 신선한 책인 '파이썬 라이브러리를 활용한 데이터 분석'

    이 책은 데이터를 분석하는 다양하고 기본적인 방법을 파이썬을 통해 소개한다.

    1장에서는 데이터 분석을 위해 파이썬의 어떠한 도구를 사용하는지 설명한다. 그 도구에는 NumPy, pandas, matplotlib, IPython, Jupyter, SciPy, scikit-learn, statsmodels 등등이 있다.

    이 책은 파이썬 인터프리터인 IPython를 주로 사용하여 예제를 다루고, 코드,텍스트,데이터 시각화를 비롯한 출력을 대화형으로 구성할 수 있는 Jupyter notebook로 결과물을 보여준다.

    하여, 2장에서는 이 IPython과 Jupyter notebook이 무엇인지 설명하고, 2장과 3장에 파이썬의 기본 문법을 다룬다. 기본 문법의 예제는 IPython을 사용한다.

    4장에서는 산술 계산을 위한 가장 중요한 라이브러리인 NumPy의 사용법을 소개하고, 5장에서는 고수준의 자료구조와 빠르고 쉽게 사용할 수 있는 데이터 분석 도구인 pandas를 소개한다.

    이제 데이터 분석을 위한 도구를 알았다면, 6장에서 9장까지는 그 분석 도구를 이용하여, 데이터에 접근하는 방법과 데이터를 정제하고, 분석하고, 시각화하는 방법을 소개한다.

    10장부터는 개념이 조금 어려워지는데, 데이터 집합을 자연스럽게 나누고 요약할 수 있는 방법을 제공하고, 시간상의 여러 지점을 관측하거나 측정할 수 있는 데이터를 활용하여 분석하는 방법을 제공한다. 그리고 pandas의 고급 기술과 파이썬 모델링 기법을 소개한다.

    마지막으로 14장은 이 책에서 소개한 도구, 방법론, 기술들을 통해 데이터를 분석하는 예제를 보여준다.

    데이터를 분석해보고 싶은 분이라면 적극 추천하는 책이다.

     

     

  • 개인적으로 구판을 가지고 있었는데, 이번에 신판을 리뷰할 기회가 생겨서 다시 한 번 읽어보게 되었다.


    우선 이 책의 정체성을 짚고 넘어가야 할 것 같다.  

    번역판 제목은 "파이썬 라이브러리를 활용한 데이터 분석(2판)-영화 평점, 이름 통계, 선거 데이터 등 실사례 사용"이다. 또한, 책의 뒤 표지에 보면 "빅데이터 분석에 관한 가장 완벽한 교재"라고 되어있다. 내용을 자세히 안 보고 제목과 표지만 보면 데이터 분석을 알려주는 책 같지만 실제로 읽어보면 내용이 좀 다르게 진행된다.  

    원서제목은 ["Python for Data Analysis, 2nd Edition : Data Wrangling with Pandas, NumPy, and IPython"]이다. 부제가 "Data Wrangling"인데, 데이터 분석에 종사하지 않다 보니 정확히 어떻게 번역하는지 모르겠지만 "데이터 전처리"라고 이해하고 있다.  

    이 책은 파이썬과 Pandas 등의 도구를 사용하여 데이터를 가공 정제하는 데 초점이 맞추어져 있다. 실사례를 통해 분석업무를 알려주는 책은 아니니 구매하고자 하시는 분들은 꼭 유의하시길 바란다.  


    원서제목처럼 Pandas 와 NumPy를 놓고 생각하면 아주 잘 만들어진 책이라고 생각한다.  

    번역도 잘 되어있고, 1판에서 넘어오면서 용어들을 다듬어서 더 읽기 좋아졌다. 또한, 구판에서 예제코드를 2단 문서형태로 처리했었는데 이를 1단 문서 형태로 변경하였다. 이전 대비 페이지가 조금 늘어나겠지만, 가독성은 훨씬 좋아졌다.  

    파이썬을 처음 사용해보는 데이터분석가 이거나, 어느 정도 파이썬을 다룰 줄 알면서 데이터 분석을 시작하고자 하는 사람을 위한 책이다. R 등 다른 도구로 분석업무를 해온 사람에게는 파이썬을 통해 기존업무를 어떻게 처리할 수 있는지 이해할 수 있으며, 처음으로 데이터 분석에 대해 배우고자 하는 사람들에게는 데이터 분석에 대해 이해하는 데 도움이 되리라 생각한다. 특히, Numpy와 Pandas를 자세히 소개하며 실제 사용할 수 있는 수준으로 발전해 가는 데 많은 도움이 된다. Pandas를 계속 사용할 사람이라면 옆에 두고 수시로 보게 되지 않을까 생각한다.


    표지비교 코드비교


    구판과 비교해 본다면... 혹시 구판을 가지고 있다면 신판은 필요 없을 것 같다.  

    내용이 크게 변한 것이 없으며(예제코드도 거의 동일), 좀 더 이해하기 좋도록 배치만 다시 했다. 구판에서 "CH.11-금융 어플리케이션"부분이 삭제되고 "CH.12-고급 Pandas","CH.13-파이썬 모델링 라이브러리"부분이 추가되었는데, 그렇게 많은 분량은 아니다. 특히 CH.13의 경우 따로 공부해야 할 방대한 주제를 20페이지 정도 소개만 한 수준이므로 이를 위해 신판을 또 구매할 필요는 없을 것 같다. 이 외에 IPython(Jupyter) 와 Pandas 변경사항이 조금 반영된 정도이다. 구판(1판 수정보완판)이 파이썬2 기준으로 만들어졌지만, 구판에서도 파이썬3 기준으로 실습하는 데 큰 문제가 없었기 때문에 파이썬3이 대세가 된 것을 알게 된 것 이상의 의미는 없는 것 같다.  

    2판이 크게 바뀐점이 없다는것은 그만큼 구판의 내용이 좋았다는 의미겠지만, 신판에서 새로운 내용을 기대한 사람에게는 다소 아쉬움이 남는다.



  • 한줄평

    pandas부터 시작해서 파이썬으로 데이터 분석하기위해서라면 읽어야 할 a-z 필독서

    마음에 드는 부분과 구절

    오랜만의 파이썬이다. 파이썬으로 딥러닝 프로젝트를 크게 벌려보자고 2017년에 다짐을 했었지만 여러 사정으로 인해 접게 되었다. 그 이후 데이타 분석가가 되고 싶은 그런 꿈을

    안고 살던 도중에 이 책을 접하고 책을 읽게 되었다.

    대체 나는 어떤 사람이 될까. 프론트 엔드 개발자? 풀스택? 데이터 엔지니어? 그냥 하고 싶은 것들을 하면서 커리어를 넓히고 깊게 쌓고 싶은 것 같다.

    조대협이라는 개발자는 정말.. 다하는 걸 보면.. 한 영역에 제한을 두고 놀고만 하려는 나를 반성해 본다. 그래 풀스택, 데이터 엔지니어가 되어야 겠다.

    데이터 분석은 모든 것의 기초다. 우리들의 삶속에는 "팩트" 라는 것들이 만연한 보편적근거로 자리 잡았다. 그 팩트라는 것들을 좀 더 면밀하게 보여주게 하는 것은

    다름 아닌 데이터 분석이다. 어떻게 분석하느냐에 따라 그 "팩트"들은 가짜뉴스 또는 잣대가 되기도 한다.

    무릇 개발자라면 데이터분석 정도는 할 수 있어야 한다는 점에서

    이 책은 읽은 만한 것같다.

    기억에 남는 코드

    파이썬을 오랜만에 공부를 해서 이런게 있었군 하는 것들도 "담아" 둔다.

    덕타이핑, 객체의 자료형에는 관심이 없고 그 객체가 어떤 메서드나 행동을 지원하는지만 알고 싶은 경우가 있다. 이를 '덕 타이핑' 이라고 부른다.

    객체는 변경할 수 있으니 언제든지 변경해도 된다는 의미는 아님을 기억하자. 그런 방식의 사용은 프로그래밍에서 부작용을 유발한다. 어떤 함수를 작성할 때 발생할 수 있는 부작용에 대해 함수의

    문서나 주석으로 명시적으로 남겨두어야 한다. 가능하면 변경 가능한 객체를 많이 사용하더라도 부작용을 피하고 불역성을 잘 활용하기를 추천한다.

    - 70p

    s = r'thishas'

    r을 쓰면 역슬래시 또한 그대로 해석할 수 있다.

    placeholder를 위한 pass

    x = 2if x == 1 : print('k')elif x == 2: print(2) pass print(1)

    이렇게 2, 1이 찍힌다. 말그대로 아무것도 하지 않는다. 굳이 써야 할까.

    나머지 것들을 담는 *

    values = (1, 2, 3, 4)a, b, *_ = valuesprint(_)

    신기하다. js의 [...]과 비슷하다.

    이 책이 좋았던 점은 비교부분이다. 어떤 함수를 써야 할지 말아야 할지를 판단해주는 좋은 잣대적인 구절들이 있다.

    insert는 append에 비해 연산비용이 많이 든다. insert로 값을 추가하면 추가된 위치 이후의 원소들은 새로 추가될 원소를 위해 내부적으로 모두 자리를 옮겨야 하기

    때문이다. 순차 자료형의 시작과 끝 지점에 원소를 추가하고 싶다면 이런 용도로 사용할 수 있는 양방향 큐를 사용해야 한다.

    -93p

    import pandas as pda = {'수학' : [1, 2, 3], '영어' : [1, 2, 3]} print(a)
  • 파이썬과 머신러닝에 한참 빠져있다보니 여러 오픈소스를 살펴볼 수 있었는데요. 간혹 난해한 코드를 만나는 경우가 분명 있었습니다. 어떤 의미로 사용된 코드인지 이해하기 위해서 별도의 의사코드를 작성해서 진행을 해보기도 하고, 특히 matplotlib같은 경우에는 매번 당장 사용할 때가 아니면 그 사용법을 익혀두기 어려웠습니다. 그러던중 좋은 기회로 한빛미디어에서 출간된 Python for Data Analysis를 만나게 되었습니다. 1판이 무려 만 오천여부가 팔렸다고 하니 이미 그 수치에서 이 책은 신뢰할 수 있겠습니다.

     

    파이썬 라이브러리를 활용한 데이터 분석 2판

     

    책의 초판은 2012년에 출간되었고 당시에는 파이썬의 열풍이 지금처럼 대단하지 않았었죠. 이미 상당한 시간이 흘러 머신러닝과 빅데이터에 힘입어 Python은 이제 대세 language로 자리잡았다고 해도 과언이 아닐텐데요, 이 책은 이제 Python3를 바탕으로 아주 사소한 문법부터 시작해서 jupyter notebook의 핵심 이론인 Ipython, 그리고 데이터 분석에 필요한 matplotlib, pandas, numpy까지 거침없이 다뤄나갑니다. 

     

    아마도 위에서 언급한 라이브러리가 개별적으로 포스팅되어 있는 블로그 등은 꽤 많을텐데 이렇게 한 권으로 제대로 다루는 것은 아마도 Python for Data Analysis 이 책이 유일하지 않을까 싶습니다. 그만큼 꽤 고급진 내용까지 잘 다루고 있습니다. 데이터를 분석한다는것은 사실 그 안에 데이터를 불러와서, 정제하고 가공하는 등 꽤 많은 준비 과정이 필요한데 이 책에서 다뤄지는 예제는 이미 그런 부분까지 세심하게 실습하고 있습니다. 라이브러리의 기초적인 활용법까지 고급 스킬까지 한방에 정리하고 싶다면 이 책은 좋은 선택지가 될 것이라고 믿습니다.

     

    마무리

    여기에 곁들여서 이야기하자면 pandas는 단순히 로컬 데이터 분석에서만 끝나는 것이 아니라 다양한 클라우드와도 밀접한 연관이 있습니다. 이미 Google Cloud에 BigQuery와는 상당히 밀접하게 동작하고 있기 때문에 요즘같은 클라우드 시대에 데이터를 분석하는 롤을 갖고 있는 사람에게 Pandas는 필수적인 라이브러리입니다. 그렇기에 이 책을 통해 좋은 인사이트를 얻으실 수 있기를 바랍니다.

부록/예제소스
자료명 등록일 다운로드
DOWNLOAD 예제소스(GitHub) 2019-06-25 다운로드
결재하기
• 문화비 소득공제 가능
• 배송료 : 0원배송료란?

배송료 안내

  • 책, 아이템 등 상품을 3만원 이상 구매시 무료배송
  • 브론즈, 실버, 골드회원이 주문하신 경우 무료배송

무료배송 상품을 포함하여 주문하신 경우에는 구매금액에 관계없이 무료로 배송해 드립니다.

닫기

리뷰쓰기

닫기
* 도서명 :
파이썬 라이브러리를 활용한 데이터 분석(2판)
* 제목 :
* 별점평가
* 내용 :

* 리뷰 작성시 유의사항

글이나 이미지/사진 저작권 등 다른 사람의 권리를 침해하거나 명예를 훼손하는 게시물은 이용약관 및 관련법률에 의해 제재를 받을 수 있습니다.

1. 특히 뉴스/언론사 기사를 전문 또는 부분적으로 '허락없이' 갖고 와서는 안됩니다 (출처를 밝히는 경우에도 안됨).
2. 저작권자의 허락을 받지 않은 콘텐츠의 무단 사용은 저작권자의 권리를 침해하는 행위로, 이에 대한 법적 책임을 지게 될 수 있습니다.

오탈자 등록

닫기
* 도서명 :
파이썬 라이브러리를 활용한 데이터 분석(2판)
* 구분 :
* 상품 버전
종이책 PDF ePub
* 페이지 :
* 위치정보 :
* 내용 :

도서 인증

닫기
도서명*
파이썬 라이브러리를 활용한 데이터 분석(2판)
구입처*
구입일*
부가기호*
부가기호 안내

* 회원가입후 도서인증을 하시면 마일리지 500점을 드립니다.

* 한빛 웹사이트에서 구입한 도서는 자동 인증됩니다.

* 도서인증은 일 3권, 월 10권, 년 50권으로 제한됩니다.

* 절판도서, eBook 등 일부 도서는 도서인증이 제한됩니다.

닫기

해당 상품을 장바구니에 담았습니다.이미 장바구니에 추가된 상품입니다.
장바구니로 이동하시겠습니까?

자료실