메뉴 바로가기 검색 및 카테고리 바로가기 본문 바로가기

한빛출판네트워크

파이썬 라이브러리를 활용한 머신러닝(번역개정판) : 사이킷런 핵심 개발자가 쓴 머신러닝과 데이터 과학 실무서

한빛미디어

번역서

판매중

  • 저자 : 안드레아스 뮐러 , 세라 가이도
  • 번역 : 박해선
  • 출간 : 2019-03-29
  • 페이지 : 480 쪽
  • ISBN : 9791162241646
  • 물류코드 :10164
초급 초중급 중급 중고급 고급
4.7점 (3명)
좋아요 : 1

사이킷런 핵심 개발자에게 배우는 머신러닝 이론과 구현 

 

현업에서 머신러닝을 연구하고 인공지능 서비스를 개발하기 위해 꼭 학위를 받을 필요는 없습니다. 사이킷런(scikit-learn)과 같은 훌륭한 머신러닝 라이브러리가 복잡하고 난해한 작업을 직관적인 인터페이스로 감싸주는 덕분이죠. 이 책에서는 사이킷런의 핵심 개발자가 복잡한 수학을 동원하지 않고 실용적으로 머신러닝을 구축하는 모든 단계를 설명합니다. 미적분, 선형대수, 확률 이론을 공부하지 않았어도 이 책을 통해 머신러닝을 활용할 수 있게 될 것입니다.

 

※ 본 번역개정판은 scikit-learn 업데이트에 따라 전반적으로 내용을 갱신한 원서 4쇄를 기반으로 합니다. 오탈자를 바로잡고, 시각적 편의를 위해 풀컬러로 인쇄했으며, 한국어판 부록 3개 절을 추가했습니다.

 

python_ml_733.jpg

 

 

번역개정판의 특징

 

본 번역개정판은 원서 4쇄를 기반으로 하며, 초판 발행 이후 알려진 오탈자를 모두 바로잡았습니다. 또한 시각적 편의를 위해 풀컬러로 인쇄했고, scikit-learn 업데이트에 따라 전반적으로 내용을 업데이트했습니다. 나아가 국내 독자에게 더 도움이 되도록 2.3절에 배깅, 엑스트라 트리, 에이다부스트 알고리즘을 살펴보는 내용을 추가했고, 3.3절에는 QuantileTransformer와 PowerTransformer 변환기, 5.1절에는 반복 교차 검증 예제를 추가했습니다.

 

주요 내용

  • 머신러닝의 기본 개념과 응용
  • 널리 사용되는 머신러닝 알고리즘의 장점과 단점
  • 머신러닝으로 처리한 데이터를 표현하는 방법
  • 모델 평가와 매개변수 튜닝을 위한 고급 방법
  • 체인 모델과 워크플로 캡슐화를 위한 파이프라인
  • 텍스트 데이터를 다루는 기술
  • 머신러닝과 데이터 과학 기술 향상을 위한 조언
저자

안드레아스 뮐러

독일 본(Bonn) 대학교에서 머신러닝으로 박사 학위를 받았습니다. 1년간 아마존의 컴퓨터 비전 응용 부서에서 머신러닝 연구자로 일한 뒤 뉴욕 대학교의 데이터 과학 센터에 합류했고, 현재는 컬럼비아 대학교에서 ‘Applied Machine Learning’ 과목을 가르치고 있습니다. 지난 4년 동안 학계와 산업계에서 널리 사용하는 머신러닝 툴킷인 사이킷런의 핵심 기여자와 관리자로 활동했습니다. 또 잘 알려진 여러 머신러닝 패키지를 직접 만들거나 개발에 참여했습니다. 뮐러의 소망은 머신러닝 애플리케이션 개발의 진입 장벽을 낮추고, 수준 높은 머신러닝 알고리즘을 손쉽게 사용할 수 있는 공개 툴을 만드는 것입니다.

 

저자

세라 가이도

오랫동안 스타트업에서 일해온 데이터 과학자이자 뛰어난 콘퍼런스 발표자입니다. 파이썬, 머신러닝, 대량의 데이터와 기술 세계를 좋아합니다. 미시간 대학교의 대학원에 입학했으며, 지금은 뉴욕에 거주하고 있습니다.

 

역자

박해선

학교에서는 기계공학을 공부했지만 졸업 후엔 대부분 코드를 읽고 쓰는 일을 했습니다. 텐서플로 블로그(tensorflow.blog)를 운영하면서 소프트웨어와 과학의 경계를 흥미롭게 탐험하고 있습니다.

『핸즈온 머신러닝』(한빛미디어, 2018), 『케라스 창시자에게 배우는 딥러닝』(길벗, 2018), 『텐서플로 첫걸음』(한빛미디어, 2016)을 우리말로 옮겼습니다. 

CHAPTER 1 소개

1.1 왜 머신러닝인가?

1.1.1 머신러닝으로 풀 수 있는 문제

1.1.2 문제와 데이터 이해하기

1.2 왜 파이썬인가?

1.3 scikit-learn

1.3.1 scikit-learn 설치

1.4 필수 라이브러리와 도구들

1.4.1 주피터 노트북

1.4.2 NumPy

1.4.3 SciPy

1.4.4 matplotlib

1.4.5 pandas

1.4.6 mglearn

1.5 파이썬 2 vs. 파이썬 3

1.6 이 책에서 사용하는 소프트웨어 버전

1.7 첫 번째 애플리케이션: 붓꽃의 품종 분류

1.7.1 데이터 적재

1.7.2 성과 측정: 훈련 데이터와 테스트 데이터

1.7.3 가장 먼저 할 일: 데이터 살펴보기

1.7.4 첫 번째 머신러닝 모델: k-최근접 이웃 알고리즘

1.7.5 예측하기

1.7.6 모델 평가하기

1.8 요약 및 정리

 

CHAPTER 2 지도 학습

2.1 분류와 회귀

2.2 일반화, 과대적합, 과소적합

2.2.1 모델 복잡도와 데이터셋 크기의 관계

2.3 지도 학습 알고리즘

2.3.1 예제에 사용할 데이터셋

2.3.2 k-최근접 이웃

2.3.3 선형 모델

2.3.4 나이브 베이즈 분류기 

2.3.5 결정 트리

2.3.6 결정 트리의 앙상블

2.3.7 (한국어판 부록) 배깅, 엑스트라 트리, 에이다부스트

2.3.8 커널 서포트 벡터 머신

2.3.9 신경망(딥러닝)

2.4 분류 예측의 불확실성 추정

2.4.1 결정 함수

2.4.2 예측 확률

2.4.3 다중 분류에서의 불확실성

2.5 요약 및 정리

 

CHAPTER 3 비지도 학습과 데이터 전처리

3.1 비지도 학습의 종류

3.2 비지도 학습의 도전 과제

3.3 데이터 전처리와 스케일 조정

3.3.1 여러 가지 전처리 방법

3.3.2 데이터 변환 적용하기

3.3.3 (한국어판 부록) QuantileTransformer와 PowerTransformer

3.3.4 훈련 데이터와 테스트 데이터의 스케일을 같은 방법으로 조정하기

3.3.5 지도 학습에서 데이터 전처리 효과 

3.4 차원 축소, 특성 추출, 매니폴드 학습

3.4.1 주성분 분석(PCA)

3.4.2 비음수 행렬 분해(NMF)

3.4.3 t-SNE를 이용한 매니폴드 학습

3.5 군집

3.5.1 k-평균 군집

3.5.2 병합 군집

3.5.3 DBSCAN

3.5.4 군집 알고리즘의 비교와 평가

3.5.5 군집 알고리즘 요약

3.6 요약 및 정리

 

CHAPTER 4 데이터 표현과 특성 공학

4.1 범주형 변수

4.1.1 원-핫-인코딩(가변수)

4.1.2 숫자로 표현된 범주형 특성

4.2 OneHotEncoder와 ColumnTransformer: scikit-learn으로 범주형 변수 다루기

4.3 make_column_transformer로 간편하게 ColumnTransformer 만들기

4.4 구간 분할, 이산화 그리고 선형 모델, 트리 모델

4.5 상호작용과 다항식

4.6 일변량 비선형 변환

4.7 특성 자동 선택

4.7.1 일변량 통계

4.7.2 모델 기반 특성 선택

4.7.3 반복적 특성 선택

4.8 전문가 지식 활용

4.9 요약 및 정리

 

CHAPTER 5 모델 평가와 성능 향상

5.1 교차 검증

5.1.1 scikit-learn의 교차 검증

5.1.2 교차 검증의 장점

5.1.3 계층별 k-겹 교차 검증과 그외 전략들

5.1.4 (한국어판 부록) 반복 교차 검증

5.2 그리드 서치

5.2.1 간단한 그리드 서치

5.2.2 매개변수 과대적합과 검증 세트

5.2.3 교차 검증을 사용한 그리드 서치

5.3 평가 지표와 측정

5.3.1 최종 목표를 기억하라

5.3.2 이진 분류의 평가 지표

5.3.3 다중 분류의 평가 지표

5.3.4 회귀의 평가 지표

5.3.5 모델 선택에서 평가 지표 사용하기

5.4 요약 및 정리

 

CHAPTER 6 알고리즘 체인과 파이프라인

6.1 데이터 전처리와 매개변수 선택

6.2 파이프라인 구축하기

6.3 그리드 서치에 파이프라인 적용하기

6.4 파이프라인 인터페이스 

6.4.1 make_pipleline을 사용한 파이프라인 생성

6.4.2 단계 속성에 접근하기

6.4.3 그리드 서치 안의 파이프라인 속성에 접근하기

6.5 전처리와 모델의 매개변수를 위한 그리드 서치

6.6 모델 선택을 위한 그리드 서치

6.6.1 중복 계산 피하기

6.7 요약 및 정리

 

CHAPTER 7 텍스트 데이터 다루기

7.1 문자열 데이터 타입

7.2 예제 애플리케이션: 영화 리뷰 감성 분석

7.3 텍스트 데이터를 BOW로 표현하기

7.3.1 샘플 데이터에 BOW 적용하기

7.3.2 영화 리뷰에 대한 BOW

7.4 불용어

7.5 tf–idf로 데이터 스케일 변경하기

7.6 모델 계수 조사

7.7 여러 단어로 만든 BOW(n-그램)

7.8 고급 토큰화, 어간 추출, 표제어 추출

7.8.1 (한국어판 부록) KoNLPy를 사용한 영화 리뷰 분석

7.9 토픽 모델링과 문서 군집화

7.9.1 LDA

7.10 요약 및 정리

 

CHAPTER 8 마무리

8.1 머신러닝 문제 접근 방법

8.1.1 의사 결정 참여

8.2 프로토타입에서 제품까지

8.3 제품 시스템 테스트

8.4 나만의 추정기 만들기

8.5 더 배울 것들

8.5.1 이론

8.5.2 다른 머신러닝 프레임워크와 패키지

8.5.3 랭킹, 추천 시스템과 그 외 다른 알고리즘

8.5.4 확률 모델링, 추론, 확률적 프로그래밍

8.5.5 신경망

8.5.6 대규모 데이터셋으로 확장

8.5.7 실력 기르기

8.6 마치며

“이 책은 사이킷런이 제공하는 핵심 알고리즘들의 사용법을 알려줍니다. 여기에 정성 가득한 역자주까지 더해져서, 머신러닝에 입문하는 파이썬 개발자에게는 더할 나위 없는 선물입니다.”

- 오동권, 니트머스 CTO

 

“이 책은 복잡한 수식은 걷어내고 사이킷런을 기반으로 각 머신러닝 알고리즘의 원리와 구현 방법을 여러 예제를 들어 설명합니다. 약간의 프로그래밍 지식만 있다면 복잡한 이론적 배경 없이도 혼자 학습하기 좋은 책입니다.”

- 이상훈, 삼성생명 DA Lab ‘한국 스파크 사용자 모임’ 운영자, 『실시간 분석의 모든 것』 역자

 

“머신러닝 시장을 선도하는 라이브러리의 핵심 개발자가 쓰고, ‘텐서플로 코리아 그룹’에서 한국 인공지능 개발자들을 위해 애써주시는 박해선 님이 우리말로 옮겼습니다. 중간중간 받아본 번역 원고에서 느껴지는 저자와 역자의 내공과 정성에 감명받았습니다.”

- 개앞맵시, 『밑바닥부터 시작하는 딥러닝』 역자

 

“파이썬을 사용하여 머신러닝을 시작하려는 사람을 위한 환상적인 안내서입니다. 제가 사이킷런을 시작했을 때 이 책이 없던 게 한스러울 따름입니다!”

- 해나 월릭, 마이크로소프트 리서치 선임 연구원

  • 2019-04-02-13-46-26.jpg

     

    저는 컴퓨터공학을 전공하고, 주로 웹을 개발하는 주니어 개발자입니다.

    머신러닝/딥러닝은 이제 개발자의 교양(ㅠㅜ)이라고 판단해서, 라이브러리 하나라도 공부해 보자는 생각으로 읽게 되었습니다.

     

    우선, 학교에서 인공지능 개념 수업을 (반쯤 졸면서)들어본 것이 전부인 제게는 굉장히 어려웠습니다.

    그도 그럴 것이, 

    '머신러닝 알고리즘을 실용적으로 사용하는 데 초점을 맞추었습니다'

    라는 작가님의 말씀을 보니, 개념 서적이 아니라 실용 서적이기 때문이었던것 같습니다...뚜쉬

    '알고리즘과 수학적인 개념 설명보다 내 프로젝트에 바로 써먹을 수 있는 머신러닝 개념들을 원한다!' 하는 분들께 딱인 책입니다.

     

    하지만 관련 자료를 읽으면서 천천히 공부하니

    머신러닝도 참 매력적인 분야라는 생각이 들었습니다.

    한번 다 읽었는데, 실습 병행하면서 한번 더 읽어보려고 합니다. 

     

    캡처2.JPG

     

    그리고...주피터 노트북으로 실습 코드들을 제공해 주는데, 정말 편합니다.

    제가 타이핑할 필요가 없는 것이 이렇게 편할줄이야!

    여튼 좋은 책으로 열심히 공부하겠습니다. 

  • 감사하게 이번에도 한빛에서 책을 보내줬다.

    나는리뷰어다 으리가 넘친다.

    이 책은 제목 그대로 파이썬 라이브러를 활용한 머신러닝 책이다.

    이놈에 인공지능을 공부하려는데 참 난감한게 수학이다.

    난 수포자다.

    그래서 여러 수학관련 책도 찾아서 보고있다 ㅜ,.ㅜ

    이 책도 머신러닝이라 눈이 핑핑돌 것이라 예상하고 책을 봤으나

    이책은 좀 달랐다. 수식위주의 책이 아니라 실질적 코드로 동작시켜보면서

    이코드가 어떤 의미가 있는지 설명을 해준다.

    예상외로 설명이 잘되고 이해할 수 있게 되어있어서 놀랬다.

    사실 이 책을 다 보지는 못했다. 챕터1까지만 해보고

    나머지는 훑어보았다.

    챕터1에서는 머신러닝에 대한 단계와 알고리즘을

    정말 간단하게 따라하며 수행할 수 있게 되었다.

    이것이 핵심이라 할 수 있고 이 간단하고도 중요한 뼈대를 기반으로

    다음장들에서 점점 확대해 나가면서 설명하는 방식이다.

    물론 수식보다는 코드와 그 의미를 자세히 설명하는 방식으로...

    실전에서 가장 널리 사용하는 머신러닝 알고리즘 설명

    데이터를 표현하는방법에 대한 중요성과 이해에 대해

    모델 평가와 매개변수 튜닝을 위한 방법

    모델을 연결하고 워크플로우를 캡슐화하는 개념

    이러한 이해에 대한 내용들을 친절하게 설명을 해주고 있다.

    원작자의 소스코드를 한글로 잘 번역해 놓은소스도 따로 있다.

    친절하다.

    이 책을 보기 전에는 머신러닝에 대해서 경험이 있고 잘 아는 사람이

    유용한 라이브러리를 찾기 쉽게 하는 책인줄 알았다.

    하지만 이 책은 처음 머신러닝에 입문자가 보아도 개념에 대해서

    이해하면서 따라하기 식으로 수식에 대한 두려움을 버리고

    수행할 수 있도록 잘 쓰여진 책이다.

    개정판은 인기없는 책은 나올 이유가 없다.

    과연 개정판이 나올만 하다.

    지금은 1챕터밖에 못봤지만 앞으로 꾸준히 다음 챕터들을 학습할 예정이다.

    한및미디어 감사해요

    이 책은 한빛미디어로부터 지원받아 작성된 서평입니다.

  • 머신러닝과 관련된 분야를 공부할 때 가장 먼저 접했던 교재는 튜링 선생님과 체스판이 그려진 스튜어트 러셀과 피터 노박의 영문 원서였다. 코드보다 문자와 수식이 많았던 책은 언제나 힘겹고 같은 곳을 몇번이나 다시 읽어보게 만들었다.

    책 표지, 번역개정판이 눈에 띈다.

    요즘에는 머신러닝 책이 다양하게 많이 출간되고 있는데, 그 중에서도 눈에 띄는 책을 오랜만에 다시 읽어보게 되었다. 작년에 scikit-learn을 사용해서 대학원 과제를 준비하면서 ‘모델 평가’ 부분만 발췌해서 읽고 지나갔던 책인데, 이번에 번역개정판이 나왔다고 해서 다시 읽어보게 되었다.

    1

    이번 번역개정판의 경우 책 소개를 하는 문구에는 초판 발행 이후에 알려진 오탈자를 다 잡았다고 되었있다. 이 정도 수준이면 개정판을 별도로 출간할 필요가 있을까 싶었는데, 천천히 읽어보니 scikit-learn 버전 업데이트에 맞춰 세부적인 코드도 수정되었다.

    개정판!

    기존에도 해당 책의 번역자분의 홈페이지에 지속적으로 업데이트를 해주시고 계셔서 별다른 불편을 느낄 수 없을텐데도 불구하고, 이번에 개정판을 출간하면서 세부적인 부분에 많은 신경을 써서 출간하였다.

    2

    근래에 tensorflow 기반의 keras에 많은 관심을 쏟고 있고, 내 주변에도 pyTorch등을 심심치 않게 학습하는 것을 보곤한다. 나는 아직 머신러닝이나 뉴럴 네트워크을 전문적으로 사용하는 일이 없다보니 대부분의 업무는 pandas와 scikit-learn 정도면 충분히 처리할 수 있는 수준이다.

    그렇다보니 scikit-learn에 많은 관심을 가지고 있는데, 관련 서적이 얼마 없기도 하지만 데이터분석 혹은 머신러닝에 관련된 책 중에서 이 책 만큼 좋은 번역이 드물다. 사실 이 책을 다시 구매하는 이유 중 8할은 번역자의 몫이라 과감하게 주장하고 싶다.

    좋은 번역, 믿고보는 박해일님

    내가 국내 번역가 중에서 가장 선호하는 분은 ‘류광’님, ‘윤인성’님, ‘이일웅’님 그리고 이 책의 번역자인 ‘박해일’님이다. 류광님은 TAOCP번역이나 기존에 진행하시던 GPG 시리즈를 통해서 익히 잘 알려진 번역가이다. 작년에 박해일님의 번역본은 믿고 구매해도 좋겠다 생각했던 것은 자신이 번역한 책을 홈페이지와 github을 통해서 지속적으로 업데이트를 해 주시는 것을 확인하고 나서이다. 라이브러리 버전 업데이트 때문에 책의 코드가 작동하지 않는 것을 github의 Jupyter Notebook 파일을 통해서 지속적으로 수정해주셔서 공부하는데 예제가 작동하지 않는 경우가 거의 없었다. ‘박해일’이란 번역자의 이름이 책의 품질을 보장한다고 해도 과언이 아니다. 그리고 이번 재번역에 한국어 독자를 위해서 별도의 챕터가 포함되어 있으며, KoNLP 관련 정보가 포함되어 있다는 점등을 고려해본다면 이번 번역을 흔하지 않은 ‘초월번역’이라 할 수 있다.

    3

    책을 받고 깜짝 놀란 부분이 책이 ‘전면 컬러’로 되어있다는 점이다. 컬러도 되어 있으면 표나 이미지를 보는데 좋기는 하겠지만 OpneCV나 OpenGL을 다루는 책이 아니라서 책 값만 올라 가는거 아닌가 싶었다.

    책의 가독성을 높이는 '컬러'

    그런데 이번에 이 책을 읽으면서 컬러가 얼마나 중요한지 책을 읽으면서 확실하게 알게 되었다. 무엇보다 코드의 가독성이 확실히 좋아졌다. 그래프나 이미지에 대한 가독성이 좋아지는 것이야 누구나 예상하지만, 코드 가독성이 이렇게 좋아질지 몰랐다.

    코드의 가독성

    PyCharm이나 VSCode를 사용할 때, 편집기 테마에 많은 신경을 쓴다는 점을 고려해보면 코드 가독성은 컬러의 이점을 더욱더 많이 볼 수 있을 듯 싶다.

    4

    책의 내용이야 기존에 이미 검증되어 있고, 믿고보는 번역자, 전면 컬러로 출판된 것등을 고려해보면 굉장히 훌륭한 책이라 할 수 있다. 나차럼 뉴럴네트워크 기반의 업무를 진행하지 않고, scikit-learn이나 pandas로 EDA나 기존의 데이터를 분류 혹은 추천 시스템을 만드는 개발자에게 일독을 권한다.

     

결재하기
• 문화비 소득공제 가능
• 배송료 : 0원배송료란?

배송료 안내

  • 책, 아이템 등 상품을 3만원 이상 구매시 무료배송
  • 브론즈, 실버, 골드회원이 주문하신 경우 무료배송

무료배송 상품을 포함하여 주문하신 경우에는 구매금액에 관계없이 무료로 배송해 드립니다.

닫기

리뷰쓰기

닫기
* 도서명 :
파이썬 라이브러리를 활용한 머신러닝(번역개정판) : 사이킷런 핵심 개발자가 쓴 머신러닝과 데이터 과학 실무서
* 제목 :
* 별점평가
* 내용 :

* 리뷰 작성시 유의사항

글이나 이미지/사진 저작권 등 다른 사람의 권리를 침해하거나 명예를 훼손하는 게시물은 이용약관 및 관련법률에 의해 제재를 받을 수 있습니다.

1. 특히 뉴스/언론사 기사를 전문 또는 부분적으로 '허락없이' 갖고 와서는 안됩니다 (출처를 밝히는 경우에도 안됨).
2. 저작권자의 허락을 받지 않은 콘텐츠의 무단 사용은 저작권자의 권리를 침해하는 행위로, 이에 대한 법적 책임을 지게 될 수 있습니다.

오탈자 등록

닫기
* 도서명 :
파이썬 라이브러리를 활용한 머신러닝(번역개정판) : 사이킷런 핵심 개발자가 쓴 머신러닝과 데이터 과학 실무서
* 구분 :
* 상품 버전
종이책 PDF ePub
* 페이지 :
* 위치정보 :
* 내용 :

도서 인증

닫기
도서명*
파이썬 라이브러리를 활용한 머신러닝(번역개정판) : 사이킷런 핵심 개발자가 쓴 머신러닝과 데이터 과학 실무서
구입처*
구입일*
부가기호*
부가기호 안내

* 회원가입후 도서인증을 하시면 마일리지 500점을 드립니다.

* 한빛 웹사이트에서 구입한 도서는 자동 인증됩니다.

* 도서인증은 일 3권, 월 10권, 년 50권으로 제한됩니다.

* 절판도서, eBook 등 일부 도서는 도서인증이 제한됩니다.

닫기

해당 상품을 장바구니에 담았습니다.이미 장바구니에 추가된 상품입니다.
장바구니로 이동하시겠습니까?

자료실