메뉴 바로가기 검색 및 카테고리 바로가기

한빛미디어

데이터 과학을 위한 통계(2판)

데이터 분석에서 머신러닝까지 파이썬과 R로 살펴보는 50가지 핵심 개념

한빛미디어

번역서

판매중

  • 저자 : 피터 브루스 , 앤드루 브루스 , 피터 게데크
  • 번역 : 이준용
  • 출간 : 2021-05-07
  • 페이지 : 380 쪽
  • ISBN : 9791162244180
  • 물류코드 :10418
  • 구판정보 :이 도서는 <데이터 과학을 위한 통계>의 개정판입니다. 구판 정보 보기
초급 초중급 중급 중고급 고급
4점 (1명)
좋아요 : 3

파이썬과 R로 필요한 만큼만 배우는 실용주의 통계학

 

통계 기법은 데이터 과학의 핵심이지만, 데이터 과학자가 고전 통계를 낱낱이 알아야 하는 것은 아니다. 이 책은 데이터 과학의 관점에서 통계 핵심 개념과 기법을 필요한 것만 골라 소개한다. 50가지 개념을 차근차근 정리하고 코드를 실행해보면, 필수 통계 지식을 빠르게 흡수할 수 있다. 2판에는 기존 R 코드와 호응하는 파이썬 코드를 새롭게 추가했다. 이 책으로 필요한 이론을 적재적소에 잘 활용하는 실력 있는 데이터 과학자로 거듭나길 바란다.

 

 

주요 내용 

  • 데이터 과학의 초석인 탐색적 데이터 분석 시작하기
  • 임의표본추출로 편향을 줄이고 고품질 데이터셋을 얻는 방법
  • 실험설계 원칙을 적용해 타당한 결론을 도출하고 명확한 답을 찾는 방법
  • 회귀분석으로 결과를 추정하고 이상을 탐지하는 방법
  • 범주를 예측하고 찾아내는 주요 분류 기법
  • 데이터로 학습하는 통계적 머신러닝 기법
  • 레이블 없는 데이터에서 의미를 추출하는 비지도 학습 기법

 

 

추천사

다른 통계 교과서나 머신러닝 매뉴얼과는 차별되는 책이다. 통계 용어와 오늘날 데이터 마이닝 용어를 연결해 설명한다는 점에서 훨씬 낫다. 설명은 간명하고 예제도 많다. 데이터 과학 입문자와 숙련자 모두에게 권할 만한 레퍼런스다.

_갈리트 시뮤엘리, 『비즈니스 애널리틱스를 위한 데이터마이닝』 주 저자

 

상세이미지_데이터 과학을 위한 통계(2판).jpg

 

저자

피터 브루스

통계 교육기관 Statistics.com 설립자. Statistics.com은 100여 개 통계 강의를 제공하며 그중 3할은 데이터 과학자가 대상이다. 치밀한 마케팅 전략을 수립해 최고 수준의 전문 데이터 과학자들을 강사로 모집해왔다. 이 과정에서 데이터 과학자를 위한 통계라는 주제에 대해 폭넓은 시야와 전문적 식견을 쌓았다.

 

저자

앤드루 브루스

데이터 과학 실무 전문가. 30년 이상 학계, 정부, 기업계에서 통계학과 데이터 과학을 연구했다. 워싱턴 대학교에서 통계학 박사학위를 땄고 학술지에 여러 논문을 발표했다. 저명한 금융회사부터 인터넷 스타트업에 이르기까지 업계에서 발생하는 폭넓은 문제에 대해 통계 기반 솔루션을 개발했고, 데이터 과학의 실무 활용 측면에서 전문가로 인정받고 있다.

 

저자

피터 게데크

데이터 과학자. 과학 계산과 데이터 과학 분야에서 30년 이상의 경험을 가지고 있다. 노바티스(Novartis)에서 계산화학자로 20년 동안 근무했고, 현재 컬래버레이티브 드러그 디스커버리(Collaborative Drug Discovery)에서 선임 데이터 과학자로 근무하며 약물 후보 물질의 생물학적, 물리화학적 특성을 예측하기 위한 머신러닝 알고리즘을 개발하는 일을 전문적으로 한다. 『Data Mining for Business Analytics』(Wiley, 2019)의 공동 저자이다. 프리드리히 알렉산더 대학교에서 화학 박사학위를 받았으며 독일 하겐 통신대학교(Fernuniversität in Hagen)에서 수학을 전공했다.

역자

이준용

인공지능과 빅데이터 기술에 관심이 많은 연구원. 한국과학기술원(KAIST)에서 전자공학 박사학위를 받고, 일본 ATR IRC 연구소에서 인간-로봇 상호작용 연구에 참여했으며, 미국 아이오와 주립 대학교에서 대사회로 관련 데이터베이스를 구축하는 일을 했다. 현재 미국 퍼시픽 노스웨스트 국립연구소에서 일한다. 다양한 프로그래밍 언어로 데이터 과학 실무 경력을 쌓고 있다. 역서로 『손에 잡히는 R 프로그래밍』(한빛미디어, 2015)과 『파이썬과 대스크를 활용한 고성능 데이터 분석』(한빛미디어, 2020)이 있다.

 

CHAPTER 1 탐색적 데이터 분석

1.1 정형화된 데이터의 요소

1.2 테이블 데이터

1.3 위치 추정

1.4 변이 추정

1.5 데이터 분포 탐색하기

1.6 이진 데이터와 범주 데이터 탐색하기

1.7 상관관계

1.8 두 개 이상의 변수 탐색하기

1.9 마치며

 

CHAPTER 2 데이터와 표본분포

2.1 임의표본추출과 표본편향

2.2 선택편향

2.3 통계학에서의 표본분포

2.4 부트스트랩

2.5 신뢰구간

2.6 정규분포

2.7 긴 꼬리 분포

2.8 스튜던트의 t 분포

2.9 이항분포

2.10 카이제곱분포

2.11 F 분포

2.12 푸아송 분포와 그 외 관련 분포들

2.13 마치며

 

CHAPTER 3 통계적 실험과 유의성검정

3.1 A/B 검정

3.2 가설검정

3.3 재표본추출

3.4 통계적 유의성과 p 값

3.5 t 검정

3.6 다중검정

3.7 자유도

3.8 분산분석

3.9 카이제곱검정

3.10 멀티암드 밴딧 알고리즘

3.11 검정력과 표본크기

3.12 마치며

 

CHAPTER 4 회귀와 예측

4.1 단순선형회귀

4.2 다중선형회귀

4.3 회귀를 이용한 예측

4.4 회귀에서의 요인변수

4.5 회귀방정식 해석

4.6 회귀진단

4.7 다항회귀와 스플라인 회귀

4.8 마치며

 

CHAPTER 5 분류

5.1 나이브 베이즈

5.2 판별분석

5.3 로지스틱 회귀

5.4 분류 모델 평가하기

5.5 불균형 데이터 다루기

5.6 마치며

 

CHAPTER 6 통계적 머신러닝

6.1 k-최근접 이웃

6.2 트리 모델

6.3 배깅과 랜덤 포레스트

6.4 부스팅

6.5 마치며

 

CHAPTER 7 비지도 학습

7.1 주성분분석

7.2 k-평균 클러스터링

7.3 계층적 클러스터링

7.4 모델 기반 클러스터링

7.5 스케일링과 범주형 변수

7.6 마치며

데이터 분석에서 머신러닝까지 50가지 핵심 개념

파이썬과 R 코드를 실행해보며, 필요한 만큼만 배운다!

 

많은 데이터 과학자가 통계 개념을 이해하지 못해 한계에 부딪힌다. 문제가 조금만 복잡해도 어디서부터 어떻게 해결해야 할지 몰라 당황하거나, 출력한 결과를 이해하지 못해 난감해하기 일쑤다. 이 책은 통계 지식에 목마른 현업 데이터 과학자와 인공지능 개발자를 위해 쓰였다. 목표는 다음 두 가지다. 

  • 첫째, 데이터 과학과 관련된 통계의 핵심 개념을 소화하기 쉽고 따라 하기 쉽게 소개한다.
  • 둘째, 데이터 과학의 관점에서 어떤 개념이 정말 중요하고 유용한지, 어떤 개념이 덜 중요한지 구분해 알게 한다. 

 

EDA, 표본분포, 유의성 검정, 회귀분석, 분류, 통계적 머신러닝, 비지도 학습 등 오늘날 데이터 분석과 머신러닝 분야에서 널리 사용하는 주제로 구성했고, 데이터 과학자가 꼭 알아야 하는 개념을 50여 가지만 ‘콕’ 집어 정리했다. 자유도, p 값, 상관계수 등 고전 통계에서 중요하게 생각하는 개념 중, 빅데이터를 다루는 데이터 과학자가 세부 사항까지 자세히 알 필요가 없는 것은 그에 맞게 안내한다. 주요 절마다 ‘용어 정리’와 ‘주요 개념’을 정리해 학습 편의를 높이고, 같은 용어라도 통계학, 데이터 과학, 컴퓨터 과학에서 저마다 다르게 쓰는 경우에는 그 차이점을 정리했다.

 

2판의 가장 큰 특징은 새로 제공하는 파이썬 코드다. 파이썬 코드를 싣기 위해 과학 계산과 데이터 과학 분야에서 30년 이상의 경력을 갖춘 저자가 새로 투입됐다. 파이썬이나 R, 둘 중 하나만 다룰 줄 알아도 책의 내용을 이해하고 코드를 실행해볼 수 있다. 모두 다룰 줄 안다면 두 언어 간의 구현 차이를 비교하는 재미가 쏠쏠할 것이다.

 

일반인 대상의 통계책은 시시하고 전공 수준의 통계학 교과서는 어려워 엄두가 안 난다면, 이 책을 징검다리 삼아 통계 지식과 통계적 사고력을 키워보길 바란다. 누구든 이 책을 끝까지 잘 마치면, 필요한 이론을 적재적소에 잘 활용하는 실력 있는 데이터 과학자로 거듭날 수 있다.

  • - 데이터 분석에 관심이 생겨 T아카데미, 오픈랩 등 대외활동을 통해 데이터 분석 대회에 몇가지 참가하게 되었는데, 항상 대회 초입에 들어갔을 때 가장 큰 문제가 분석 시작을 어떻게 해야하는가?에 대한 문제였다.

    - 그 원인으로는 첫번째로는 도메인 지식의 부족(금융데이터를 분석하는데 이평선을 모른다면?)이 있을 것이다. 이 부분에 대해서는 보통 모르는 용어를 찾아보는 정도로 진입장벽을 넘어서는 것은 가능할 것이라고 본다. 그 이상의 심도 있느 분석에는 그만큼의 지식이 더 필요하겠지만...

    - 두번째로는 데이터를 어떻게 다루어야 할 지를 모른다는 것이다. 데이터 분석이라는 분야에서는 이 문제가 가장 크게 작용할 것이라고 생각한다. 단순히 Pandas, Numpy를 쓸 줄 모른다는 문제가 아니다. 빈 데이터를 어떻게 처리해야 할지, 데이터 분포의 추세나 반복이 어떠한 의미를 갖게 될지 등을 해석하는 문제라고 할 수 있겠다.

    - 특히나 이 부분에서 통계적 지식은 데이터를 다루는 데 빛을 발하게 해주는 요소라고 할 수 있겠다. 데이터 시각화를 통해 missing value나 데이터 추세만 보던 분석법에 멈추지 않고, 상관계수나 데이터 분포, 편차 등을 분석할 수 있다면 모델 정확도에도 긍정적 영향을 주지만, 일정한 추세를 알아내는 데 도움을 주어 머신러닝의 중요점 중 하나인 일반화된 모델을 구성하는데에도 많은 도움이 될 것이라고 생각한다. 각 통계분석 기법들을 도표 위에 표현하는 연습을 해본다면 시각화 연습은 덤으로 챙겨갈 수 있지 않을까?

결재하기
• 문화비 소득공제 가능

배송료 안내

  • 책, 아이템 등 상품을 1만원 이상 구매시 무료배송
  • 브론즈, 실버, 골드회원이 주문하신 경우 무료배송

무료배송 상품을 포함하여 주문하신 경우에는 구매금액에 관계없이 무료로 배송해 드립니다.

닫기

리뷰쓰기

닫기
* 도서명 :
데이터 과학을 위한 통계(2판)
* 제목 :
* 별점평가
* 내용 :

* 리뷰 작성시 유의사항

글이나 이미지/사진 저작권 등 다른 사람의 권리를 침해하거나 명예를 훼손하는 게시물은 이용약관 및 관련법률에 의해 제재를 받을 수 있습니다.

1. 특히 뉴스/언론사 기사를 전문 또는 부분적으로 '허락없이' 갖고 와서는 안됩니다 (출처를 밝히는 경우에도 안됨).
2. 저작권자의 허락을 받지 않은 콘텐츠의 무단 사용은 저작권자의 권리를 침해하는 행위로, 이에 대한 법적 책임을 지게 될 수 있습니다.

오탈자 등록

닫기
* 도서명 :
데이터 과학을 위한 통계(2판)
* 구분 :
* 상품 버전
종이책 PDF ePub
* 페이지 :
* 위치정보 :
* 내용 :

도서 인증

닫기
도서명*
데이터 과학을 위한 통계(2판)
구입처*
구입일*
부가기호*
부가기호 안내

* 회원가입후 도서인증을 하시면 마일리지 500점을 드립니다.

* 한빛 웹사이트에서 구입한 도서는 자동 인증됩니다.

* 도서인증은 일 3권, 월 10권, 년 50권으로 제한됩니다.

* 절판도서, eBook 등 일부 도서는 도서인증이 제한됩니다.

닫기

해당 상품을 장바구니에 담았습니다.이미 장바구니에 추가된 상품입니다.
장바구니로 이동하시겠습니까?

자료실