데이터 과학에 필요한 만큼만 배우는 실용주의 통계학
데이터 과학자가 고전 통계를 낱낱이 알아야 하는 것은 아니다. 이 책은 다양한 통계 기법을 데이터 과학에 적용해보며, 중요한 것과 중요하지 않은 것을 구분하는 실용적인 방법을 알려준다. EDA, 회귀분석, 분류 등 오늘날 데이터 분석과 머신러닝에서 사용하는 기법들의 근본이 되는 통계 개념을 확실하게 이해할 수 있다.
CHAPTER 1 탐색적 데이터 분석
1.1 정형화된 데이터의 요소
1.2 테이블 데이터
1.3 위치 추정
1.4 변이 추정
1.5 데이터 분포 탐색하기
1.6 이진 데이터와 범주 데이터 탐색하기
1.7 상관관계
1.8 두 개 이상의 변수 탐색하기
1.9 마치며
CHAPTER 2 데이터와 표본분포
2.1 랜덤표본추출과 표본편향
2.2 선택 편향
2.3 통계학에서의 표본분포
2.4 부트스트랩
2.5 신뢰구간
2.6 정규분포
2.7 긴 꼬리 분포
2.8 스튜던트의 t 분포
2.9 이항분포
2.10 푸아송 분포와 그 외 관련 분포들
2.11 마치며
CHAPTER 3 통계적 실험과 유의성 검정
3.1 A/B 검정
3.2 가설검정
3.3 재표본추출
3.4 통계적 유의성과 p 값
3.5 t 검정
3.6 다중검정
3.7 자유도
3.8 분산분석
3.9 카이제곱검정
3.10 멀티암드 밴딧 알고리즘
3.11 검정력과 표본크기
3.12 마치며
CHAPTER 4 회귀와 예측
4.1 단순선형회귀
4.2 다중선형회귀
4.3 회귀를 이용한 예측
4.4 회귀에서의 요인변수
4.5 회귀방정식 해석
4.6 가정 검정: 회귀 진단
4.7 다항회귀와 스플라인 회귀
4.8 마치며
CHAPTER 5 분류
5.1 나이브 베이즈
5.2 판별분석
5.3 로지스틱 회귀
5.4 분류 모델 평가하기
5.5 불균형 데이터 다루기
5.6 마치며
CHAPTER 6 통계적 머신러닝
6.1 K 최근접 이웃
6.2 트리 모델
6.3 배깅과 랜덤 포레스트
6.4 부스팅
6.5 마치며
CHAPTER 7 비지도 학습
7.1 주성분분석
7.2 K 평균 클러스터링
7.3 계층적 클러스터링
7.4 모델 기반 클러스터링
7.5 스케일링과 범주형 변수
7.6 마치며
데이터 분석에서 머신러닝까지 50가지 핵심 개념
데이터 과학에 필요한 만큼만 배우는 족집게 통계학
통계 기법은 데이터 과학의 핵심이지만, 전공자가 아닌 이상 정식으로 통계를 공부하고 데이터 과학에 입문하는 사람은 찾기 어렵다. 데이터 과학자가 고전 통계를 낱낱이 알아야 하는 것은 아니다. 자유도, p 값, 상관계수 등 고전 통계에서 중요하게 생각하는 개념 중에는 빅데이터를 다루는 데이터 과학자가 세부 사항까지 자세히 알 필요가 없는 것들도 있다.
이 책은 통계 기법을 데이터 과학에 적용해보며, 중요한 것과 중요하지 않은 것을 구분하는 실용적인 방법을 알려준다. EDA, 표본분포, 유의성 검정, 회귀분석, 분류, 통계적 머신러닝, 비지도 학습 등 오늘날 데이터 분석과 머신러닝 분야에서 널리 사용하는 주제로 구성되었으며, 주요 절마다 ‘용어 정리’를 제공해 학습 편의를 높였다.
많은 데이터 과학자가 머신러닝 및 통계 기법을 사용하면서도 그 근본이 되는 통계 개념을 이해하지 못해 한계에 부딪히곤 한다. R 언어와 약간의 통계 지식만 있다면, 이 책이 건널 수 없었던 그 강을 건너게 해줄 것이다.
주요 내용
다른 통계 교과서나 머신러닝 매뉴얼과는 차별되는 책이다. 통계 용어와 오늘날 데이터 마이닝 용어를 연결해 설명한다는 점에서 훨씬 낫다. 설명은 간명하고 예제도 많다. 데이터 과학 입문자와 숙련자 모두에게 권할 만한 레퍼런스다.
- 갈리트 시뮤엘리, 『비즈니스 애널리틱스를 위한 데이터마이닝』 주저자
박두순 , 문양세 , 박영호 , 윤찬현 , 정영식 , 장형석
가사키 나가토 , 다미야 나오토
강전희 , 엄동란