메뉴 바로가기 검색 및 카테고리 바로가기 본문 바로가기

한빛출판네트워크

XGBoost와 사이킷런을 활용한 그레이디언트 부스팅

캐글 고수에게 배우는 실전 파이썬 머신러닝, 코랩에서 실습 가능

한빛미디어

번역서

판매중

  • 저자 : 코리 웨이드
  • 번역 : 박해선
  • 출간 : 2022-04-08
  • 페이지 : 380 쪽
  • ISBN : 9791162245392
  • 물류코드 :10539
초급 초중급 중급 중고급 고급
5점 (1명)
좋아요 : 0

캐글 우승자들의 머신러닝 우승 비법이자 현존하는 가장 우월한 머신러닝 모델 XGBoost

 

이 책은 기본적인 머신러닝과 판다스부터 사용자 정의 변환기, 파이프라인과 희소 행렬로 새로운 데이터의 예측을 만드는 강력한 XGBoost 모델 튜닝까지 모두 다룹니다. 또한 XGBoost의 탄생 배경과 XGBoost를 특별하게 만드는 수학적 이론과 기술, 물리학자와 천문학자가 우주를 연구하는 사례 연구까지 다양한 XGBoost의 흥미로운 이야기와 캐글 마스터들의 우승 비법까지 소개합니다. 마지막으로 더 확실한 이해를 위해 원서에는 없는 친절하고 상세한 역자 노트와 다른 그레이디언트 부스팅 라이브러리를 배울 수 있는 한국어판만의 부록을 추가하여 내용을 더욱 가득 채웠습니다. 이 책 한 권이면 복잡한 XGBoost 개념을 완벽하게 이해하고 제품을 위한 머신러닝을 구축해볼 수 있게 됩니다. 그레이디언트 부스팅을 현업에 적용해보고 싶은 머신러닝 엔지니어나 캐글 대회를 준비하고 있는 캐글 도전자에게 훌륭한 안내서가 되어줄 것입니다.

 

 

상세이미지_XGBoost와 사이킷런을 활용한 그레이디언트 부스팅_940px.jpg

코리 웨이드 저자

코리 웨이드

수학과 예술 분야 석사이고 버클리 코딩 아카데미(Berkeley Coding Academy)의 설립자이자 이사로 전세계 10대들에게 머신러닝과 인공지능을 가르치고 있습니다. 또한 코리는 버클리 고등학교 독립 학습 프로그램의 수학 분야 의장으로서 프로그래밍과 고등 수학을 가르치고있습니다. 기초적인 자연어 처리를 가르치며, 패스스트림(Pathstream)과 데이터 과학 커리큘럼을 개발하고, 투워드 데이터 사이언스(Towards Data Science), 스프링보드(Springboard), 미디엄(Medium)에 통계학과 머신러닝 글을 기고합니다. 『The Python Workshop』(Packt, 2019)의 공동 저자이기도 합니다.

박해선 역자

박해선

 
 

기계공학을 전공했지만 졸업 후엔 줄곧 코드를 읽고 쓰는 일을 했습니다. 텐서플로 블로그

(tensorflow.blog )를 운영하고 있고, 머신러닝과 딥러닝에 관한 책을 집필하고 번역하면서

소프트웨어와 과학의 경계를 흥미롭게 탐험하고 있습니다. 『혼자 공부하는 머신러닝+딥러닝』(한빛미디어, 2020), 『Do it! 딥러닝 입문』(이지스퍼블리싱, 2019)을 집필했습니다. 『파이썬 라이브러리를 활용한 머신러닝(번역개정2판)』(한빛미디어, 2022 ), 『머신러닝 파워드 애플리케이션』(한빛미디어, 2021 ), 『파이토치로 배우는 자연어 처리』(한빛미디어, 2021 ), 『머신 러닝 교과서 with 파이썬, 사이킷런, 텐서플로(개정3판)』(길벗, 2021 ), 『딥러닝 일러스트레이티드』(시그마프레스, 2021 ), 『GAN 인 액션』(한빛미디어, 2020 ), 『핸즈온 머신러닝(2판)』(한빛미디어, 2020 ), 『미술관에 GAN 딥러닝 실전 프로젝트』(한빛미디어, 2019 ), 『파이썬을 활용한 머신러닝 쿡북』(한빛미디어, 2019 ), 『케라스 창시자에게 배우는 딥러닝』(길벗, 2018 )을 포함하여 여러 권의 책을 우리말로 옮겼습니다.

CHAPTER 0 코딩 환경 설정

0.1 아나콘다

0.2 주피터 노트북 사용하기

0.3 XGBoost

0.4 버전

 

 

PART 1 배깅과 부스팅


CHAPTER 1 머신러닝 개요

1.1 XGBoost 소개

1.2 데이터 랭글링

1.3 회귀 모델 만들기

1.4 분류 모델 만들기

1.5 마치며

 

CHAPTER 2 결정 트리

2.1 결정 트리 소개

2.2 결정 트리 알고리즘

2.3 분산과 편향

2.4 결정 트리 하이퍼파라미터 튜닝

2.5 심장 질환 예측하기 - 사례 연구

2.6 마치며

 

CHAPTER 3 배깅과 랜덤 포레스트

3.1 배깅 앙상블

3.2 랜덤 포레스트 살펴보기

3.3 랜덤 포레스트 매개변수

3.4 랜덤 포레스트 성능 높이기 – 사례 연구

3.5 마치며

 

CHAPTER 4 그레이디언트 부스팅에서 XGBoost까지

4.1 배깅에서 부스팅까지

4.2 그레이디언트 부스팅 작동 방식

4.3 그레이디언트 부스팅 매개변수 튜닝

4.4 빅 데이터 다루기 - 그레이디언트 부스팅 vs XGBoost

4.5 마치며

 

 

PART 2 XGBoost


CHAPTER 5 XGBoost 소개

5.1 XGBoost 구조

5.2 XGBoost 파라미터 최적화

5.3 XGBoost 모델 만들기

5.4 힉스 보손 찾기 – 사례 연구

5.5 마치며

 

CHAPTER 6 XGBoost 하이퍼파라미터

6.1 데이터와 기준 모델 준비

6.2 XGBoost 하이퍼파라미터 튜닝

6.3 조기 종료 적용

6.4 하이퍼파라미터 결합

6.5 하이퍼파라미터 조정

6.6 마치며

 

CHAPTER 7 XGBoost로 외계 행성 찾기

7.1 외계 행성 찾기

7.2 오차 행렬 분석하기

7.3 불균형 데이터 리샘플링

7.4 XGBClassifier 튜닝

7.5 마치며

 

 

PART 3 고급 XGBoost


CHAPTER 8 XGBoost 기본 학습기

8.1 여러 가지 기본 학습기

8.2 gblinear 적용하기

8.3 dart 비교하기

8.4 XGBoost 랜덤 포레스트

8.5 마치며

 

CHAPTER 9 캐글 마스터에게 배우기

9.1 캐글 대회 둘러보기

9.2 특성 공학

9.3 상관관계가 낮은 앙상블 만들기

9.4 스태킹

9.5 마치며

 

CHAPTER 10 XGBoost 모델 배포

10.1 혼합 데이터 인코딩

10.2 사용자 정의 사이킷런 변환기

10.3 XGBoost 모델 만들기

10.4 머신러닝 파이프라인 구성하기

데이터 과학 전문가를 위한 XGBoost와 사이킷런 활용법

 

XGBoost는 빠르고 효율적으로 수십억 개의 데이터 포인트에 적용하기 위한 그레이디언트 부스팅 프레임워크로, 업계에서 입증된 오픈 소스 소프트웨어 라이브러리입니다. 이 책은 그레이디언트 부스팅에 대한 이론을 설명하기 전에 사이킷런으로 머신러닝과 XGBoost를 소개합니다. 결정 트리를 다루고 머신러닝 관점에서 배깅을 분석하며 XGBoost까지 확장되는 하이퍼파라미터를 배우겠습니다. 밑바닥부터 그레이디언트 부스팅 모델을 구축해보고 그레이디언트 부스팅을 빅 데이터로 확장하면서 속도의 중요성을 설명합니다. 그리고 속도 향상 및 수학적인 이론에 초점을 두고 XGBoost의 세부 사항을 알아봅니다. 자세한 사례 연구를 이용하여 사이킷런 API와 원본 파이썬 API 방식으로 XGBoost 분류 모델과 회귀 모델을 만들고 튜닝하는 방법을 연습합니다. 또한, XGBoost 하이퍼파라미터를 활용하여 성능 개선, 누락된 값 수정 및 불균형 데이터 세트 적용, 그리고 다른 기본 학습기를 튜닝합니다. 마지막으로 상관관계가 낮은 앙상블과 스태킹 모델을 만들어보고, 모델 배포를 위해 희소 행렬과 사용자 정의 변환기, 파이프라인과 같은 고급 XGBoost 기술을 적용합니다.

 

 

주요 내용

  • 그레이디언트 부스팅 모델 구축
  • 정확하고 빠른 XGBoost 회귀 및 분류 모델 개발
  • XGBoost 하이퍼파라미터 미세 조정 측면에서 분산 및 편향 분석
  • 상관관계가 없는 앙상블을 구축하고 XGBoost 모델을 스태킹하여 정확성 향상
  • 다트, 선형 모델 및 XGBoost 랜덤 포레스트와 같은 기본 학습기 적용
  • 사용자 정의 변환기와 파이프라인을 사용한 XGBoost 모델 배포
  • 누락된 값 자동 수정 및 불균형 데이터 조정

  • "한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

    캐글 초보의 험난탄 캐글 도전기

    한창 딥러닝에 대한 관심이 떠오를 무렵 다양한 커뮤니티를 돌아다니다 캐글에 대해 알게 되었다. 캐글에 대해 간단히 소개하자면, 구글의 자회사이며 데이터 과학자나 기계학습 연구자들의 온라인 커뮤니티이자 경쟁의 장이다. 3년쯤 전에 처음 캐글을 접하게 되면서 처음 데이터 분석에 발을 딛게 되었다. 

    대부분이 그렇지만, 캐글의 타이타닉 대회를 시작으로 향후에는 상금이 걸린 대회까지 입상을 하는 상상을 하며 도전해보았지만 생각보다 타이타닉 대회의 벽이 높게만 느껴졌다. 기계학습이나 데이터 분석에 대해 하나도 알지 못하는 상태로 도전하다 보니, "df.head()"를 통해 확인한 데이터 테이블의 벽은 높게만 느껴졌다.

    엄....

    도대체 SibSp라는 놈은 무엇이며, 어떤 데이터가 모델의 입력이 되어야 하고 어떤 데이터가 학습 라벨이 되어야 하는가, 도대체 Name, Cabin, Ticket은 어떤 용도로 사용하라고 넣어 놓은 것인가. 사실 데이터셋이나 대회에서 제공해주는 데이터 상세정보를 확인해 알 수 있기도 하고, 워낙 Titanic과 같이 유명한 대회의 경우에는 한국어로 된 유튜브나 블로그 자료를 통해 실습해보며 따라갈 수도 있었지만, 마음만 앞섰던 나는 빨랐던 마음만큼 포기도 빨랐었다.

    한 번의 좌절을 맛본 뒤 다시 생각날 때마다 틈틈이 도전해보고 있었지만, 여전히 밑바탕이 없었던 나는 단편적인 지식만 쌓아가며 작은 성장에만 만족해하며 가시적인 성과는 한 번도 얻어보지 못하였다. 이렇게 캐글을 깨작거리기만 하는 와중 "XGBoost라는 알고리즘이 쩔더라!" 라는 말은 들어보았지만, 실제로 왜 그런지에 대해는 알아볼 엄두도 내지 못하고 있던 와중 한빛 미디어의 나는 리뷰어다 이벤트를 통해 <XGBoost와 사이킷런을 활용한 그레이디언트 부스팅>을 리뷰할 기회가 생겨 뒤도 돌아보지 않고 신청해버렸다.

    인공지능 분야로 출발하기 위한 첫걸음

    이 책의 구성은 크게 3부분으로 나뉜다. 1부에서는 머신러닝의 개요에 대해 전반적으로 다루고 있다. 특히 데이터 분석의 기초가 되는 데이터 랭글링(데이터에 대한 이해도를 높이고, 학습에 필요한 데이터를 선택하고 불필요하거나 누락된 데이터를 처리하는 과정), 회귀 모델과 분류 모델에 대한 간단한 설명으로 출발하여 결정 트리(Decision Tree), 배깅과 랜덤 포레스트, 그레이디언트 부스팅에서 XGBoost까지 차근차근 짚어주듯이 넘어간다.

    2부에서는 본격적인 XGBoost에 대해 설명을 시작한다. XGBoost가 왜 유명해지기 시작했는지, 어떤 부분이 기존의 그레이디언트 부스팅과 차이가 나는지 설명해준다. 그리고 나서 XGBoost의 하이퍼파라미터에 대한 설명과 어떤 전략으로 튜닝을 할지 알려주고, 캐글의 외계행성 데이터셋을 활용해 실전 연습 과정을 보여준다.

    마지막 3부에서는 여러 학습기들이 작동하는 XGBoost 내부의 기본 학습기들에 대해 알아보는 내용과, 캐글 마스터의 데이터 분석과 모델링 과정을 담은 내용, 마지막으로는 XGBoost 모델을 배포하는 파이프라인을 알아보는 내용까지 담겨 있다.

    전반적인 책의 내용은 이제 막 데이터 사이언스 분야나 기계학습 분야에 입문자들이 높아만 보이던 캐글의 벽을 조금이라도 쉽게 넘어갈 수 있도록 구성되어 있어 책을 읽는 내내 다시 한번 캐글 대회를 도전해보고 싶다는 마음이 들도록 되어 있다. 물론 각 대회마다의 특성이 달라 딥러닝 네트워크까지 빠삭하게 알고 있어야 하거나, 데이터 분석만을 필요로 하는 대회도 있어서 이 책 한 권으로 캐글 마스터가 될 수 있지는 않겠지만, XGBoost와 사이킷런만 활용하여 리더보드에 이름을 올려보는 시도는 할 수 있을 것 같다.

    이 책의 장점과 단점

    앞서 말해온것 처럼 이 책은 캐글 초보자들이 중수까지 올라가기에 딱 좋은 발판으로 생각이 된다. 알고 있는 머신러닝 모델이 많지 않아 얼마나 깊이 있는지에 대해 알기는 어렵지만, 개인적인 인상으로는 하나의 내용을 깊게 파며 샅샅이 분석해보기보단 XGBoost와 사이킷런이라는 툴을 활용해 실제 캐글 대회에서는 어떻게 활용하면 좋을지에 대한 내용이 주를 이루고 있어 보다 실용적인 책이라는 느낌을 받았다.

    대체로 읽기 수월하고, 따라 치며 배우기 좋은 내용들로 가득 차 있어 만족스럽게 읽었다. 그럼에도 불구하고 개인적인 소소한 아쉬움을 하나 말하자면 모든 실습 내용에 전체 데이터에 대한 성능 분석은 담겨져 있지만 개별 데이터에 대한 결과 예시가 없는 점이 아쉬웠다. 물론 기계학습이라는 도메인의 특성상 그 결과를 시각적으로 담기는 어려울 수 있겠지만, 개별 데이터에 대한 시각화를 통해 내가 만든 모델이 특정 데이터에 대해선 이런 결과를 보인다는 것을 확인해보는 것 또한 실습 과정에서 필요한 경우라 생각되었지만 그러한 부분이 없었다.

    작은 아쉬움 하나만 빼자면, <XGBoost와 사이킷런을 활용한 그레이디언트 부스팅>은 XGBoost에 대해 알아보고 싶은 초보 캐글러라면 이 책을 통해 본격적인 리더보드 등반을 시도해 보는 것이 어떨까?

결제하기
• 문화비 소득공제 가능

배송료 안내

  • 책, 아이템 등 상품을 1만원 이상 구매시 무료배송
  • 브론즈, 실버, 골드회원이 주문하신 경우 무료배송

무료배송 상품을 포함하여 주문하신 경우에는 구매금액에 관계없이 무료로 배송해 드립니다.

닫기

도서판매처

리뷰쓰기

닫기
* 도서명 :
XGBoost와 사이킷런을 활용한 그레이디언트 부스팅
* 제목 :
* 별점평가
* 내용 :

* 리뷰 작성시 유의사항

글이나 이미지/사진 저작권 등 다른 사람의 권리를 침해하거나 명예를 훼손하는 게시물은 이용약관 및 관련법률에 의해 제재를 받을 수 있습니다.

1. 특히 뉴스/언론사 기사를 전문 또는 부분적으로 '허락없이' 갖고 와서는 안됩니다 (출처를 밝히는 경우에도 안됨).
2. 저작권자의 허락을 받지 않은 콘텐츠의 무단 사용은 저작권자의 권리를 침해하는 행위로, 이에 대한 법적 책임을 지게 될 수 있습니다.

오탈자 등록

닫기
* 도서명 :
XGBoost와 사이킷런을 활용한 그레이디언트 부스팅
* 구분 :
* 상품 버전
종이책 PDF ePub
* 페이지 :
* 위치정보 :
* 내용 :

도서 인증

닫기
도서명*
XGBoost와 사이킷런을 활용한 그레이디언트 부스팅
구입처*
구입일*
부가기호*
부가기호 안내

* 인터넷 서점에서 구입한 도서를 인증하면 마일리지 500점을 드립니다.

* 한빛 웹사이트에서 구입한 도서는 자동 인증됩니다.

* 도서인증은 일 3권, 월 10권, 년 50권으로 제한되며 절판도서, eBook 등 일부 도서는 인증이 제한됩니다.

* 구입하지 않고, 허위로 도서 인증을 한 것으로 판단되면 웹사이트 이용이 제한될 수 있습니다.

닫기

해당 상품을 장바구니에 담았습니다.이미 장바구니에 추가된 상품입니다.
장바구니로 이동하시겠습니까?

자료실