왜 이 책을 읽어야 할까?
데이터 과학을 직접 응용할 일이 없더라도 데이터 과학을 이해하는 일은 매우 중요하다. 데이터 분석적 사고 방식에 익숙해지면 데이터 마이닝 프로젝트를 평가하는 데 도움이 된다. 예를 들어 어떤 컨설턴트나 잠재적인 투자자가 데이터에서 지식을 추출하는 업무를 개선하고자 제안할 경우, 제안서를 체계적으로 평가함으로써 제안이 과연 타당한지, 아니면 문제가 있는지를 판단할 수 있다. 그렇다고 해서 프로젝트가 성공한다고는 확신할 수 없지만(데이터 마이닝 프로젝트는 실제로 시도해봐야 결과를 알 수 있는 경우가 많다) 적어도 제안서에 있는 결함이나 비현실적 가정, 빠진(놓치는) 부분은 알아낼 수 있다.
데이터 과학에 대한 이 책의 개념적 접근 방법
이 책에서는 데이터 과학에서 가장 중요한 기본 개념을 설명한다. 이 개념의 일부는 각 장의 '제목'이 되기도 하고 다른 일부는 설명을 통해 자연스럽게 소개된다(설명에 들어 있는 개념은 기본 개념이라고 표시되어 있지 않다). 이 개념들은 문제에 대한 계획을 세우는 일부터 데이터 과학 기법을 적용하고 더 나은 의사 결정을 하기 위해 결과를 배치하는 과정까지 폭 넓게 적용될 뿐만 아니라 다양한 비즈니스 분석 방법론 및 기법의 기반이 되기도 한다.
대상 독자
- 데이터 과학자와 함께 일을 하거나 데이터 과학 중심의 프로젝트를 관리하는 사람들
- 데이터 과학 벤처 기업에 투자하려는 기업가
- 데이터 과학 프로젝트를 구현하려는 개발자
- 데이터 과학자를 지망하는 사람
이 책으로 가르치는 분들께
"이 책은 매우 다양한 데이터 과학 과정 교재로 훌륭히 사용되어 왔습니다. 초기에 이 책은 포스터 교수가 2005년 가을 뉴욕대 스턴 스쿨에서 여러 과의 주제를 종합해 가르치기 위해 만든 교재에서 시작되었습니다*. 원래 강의는 MBA와 MSIS 학생을 대상으로 했지만, 대학의 다른 학과의 학생들이 많이 몰려와 원래 이 강의 대상이었던 MBA 및 MSIS 학생들뿐만 아니라 기계 학습 등에서 든든한 기반이 있는 학생들에게도 특히 유용했다는 점이 이채롭습니다. 아마도 그들의 교과 과정에서는 알고리즘 이외에 근본적인 원리에 대해 주목하지 않았기 때문일 것 같습니다.
뉴욕대에서는 현재 이 책을 데이터 과학에 관련된 다양한 강의에서 교재로 사용하고 있습니다. 원래의 MBA 및 MSIS 과정은 물론이고, 학부 비즈니스 분석학, 뉴욕대 스턴 스쿨의 비즈니스 분석학 석사 과정, 뉴욕대에 신설된 데이터 과학 석사과정을 위한 데이터 과학 입문 교재로 사용되고 있습니다. 게다가 이 책이 출판되기도 전에 이미 7개국 10여 개 대학의 경영대, 컴퓨터 과학과 및 데이터 과학에 대한 입문 일반 과정에서 이 책을 교재로 채택해 사용해 왔습니다."
1장. 개요 : 데이터 분석적 사고 방식
1.1 데이터가 제공하는 무한한 기회
1.2 예 : 허리케인 프란시스
1.3 예제 : 고객 이탈 예측
1.4 데이터 과학, 데이터 공학, 데이터 주도 의사 결정
1.5 데이터 처리와 '빅 데이터'
1.6 빅 데이터 1.0에서 빅 데이터 2.0으로
1.7 전략적 자산으로서의 데이터 및 데이터 과학 능력
1.8 데이터 분석적 사고
1.9 이 책에 대하여
1.10 다시 보는 데이터 마이닝과 데이터 과학
1.11 데이터 과학과 데이터 과학자의 일은 화학과 시험관의 관계
1.12 요약
2장. 비즈니스 문제와 데이터 과학 해결책
2.1 비즈니스 문제에서 시작해 데이터 마이닝 작업으로
2.2 감독 방법과 자율 방법
2.3 데이터 마이닝과 그 결과
2.4 데이터 마이닝 프로세스
2.5 데이터 과학팀을 관리한다는 것은?
2.6 그 외 분석 기법 및 기술
2.7 요약
3장. 예측 모델링 개요 : 연관성에서 감독 세분화까지
3.1 모델, 유도, 예측
3.2 감독 세분화
3.3 세분화 과정의 시각화
3.4 규칙 집합으로서의 트리
3.5 확률 추정
3.6 사례 : 트리 유도로 고객 이탈 문제 해결하기
3.7 요약
4장. 데이터에 대한 모델 적합화
4.1 수학 함수를 통한 분류
4.2 수학 함수를 이용한 회귀 분석
4.3 계층 확률 추정과 로지스틱 회귀 분석
4.4 사례 : 로지스틱 회귀 분석과 트리 유도 비교
4.5 비선형 함수, 지원 벡터 기계, 신경망
4.6 요약
5장. 과적합화 문제 해결
5.1 일반화
5.2 과적합화
5.3 과적합화 검사
5.4 사례 : 선형 함수 과적합화
5.5 * 사례 : 왜 과적합화가 문제인가?
5.6 예비 데이터 평가에서 교차 검증까지
5.7 다시 모델링한 고객 이탈 문제
5.8 학습 곡선
5.9 과적합화 회피와 복잡도 제어
5.10 요약
6장. 유사도, 이웃, 군집
6.1 유사도와 거리
6.2 최근접 이웃 추론
6.3 유사도 및 이웃에 관한 주요 세부 사항
6.4 군집화
6.5 비즈니스 문제 해결과 데이터 탐사 문제
6.6 요약
7장. 결정 분석적 사고 1 : 좋은 모델은?
7.1 분류자 평가
7.2 모델 평가에 대한 일반적인 원리
7.3 핵심 분석 프레임워크 : 기댓값
7.4 평가, 기준선 성능, 데이터 투자의 영향
7.5 요약
8장. 모델 성능 시각화
8.1 분류 대신 서열화하기
8.2 수익 곡선
8.3 ROC 그래프와 곡선
8.4 ROC 곡선 하위 영역(AUC)
8.5 누적 응답 곡선과 향상도 곡선
8.6 예제 : 고객 이탈 모델링에 대한 성능 분석
8.7 요약
9장. 증거와 확률
9.1 예제 : 온라인 고객 광고 타겟팅
9.2 증거의 통계적 조합
9.3 데이터 과학에 베이즈 규칙 응용
9.4 증거 '향상도' 모델
9.5 예제 : 페이스북 '좋아요'의 증거 향상도
9.6 요약
10장. 텍스트 표현 및 마이닝
10.1 텍스트가 중요한 이유
10.2 텍스트가 어려운 이유
10.3 텍스트 표현법
10.4 예제 : 재즈 음악가
10.5 * IDF와 엔트로피의 관계
10.6 단어 주머니보다 복잡한 표현들
10.7 예제 : 주가 변동을 예측하기 위한 뉴스 기사 마이닝
10.8 요약
11장. 결정 분석적 사고 2 : 분석 공학
11.1 자선 단체 후원할 가능성이 높은 후원자 타겟팅
11.2 훨씬 더 복잡한 고객 이탈 문제
11.3 요약
12장. 기타 데이터 과학 작업과 기법
12.1 동시 발생과 연관성의 발견
12.2 프로파일링 : 전형적인 행동의 발견
12.3 연결 예측과 친구 추천
12.4 데이터 축소, 잠재 정보, 영화 추천
12.5 편중, 편차, 조합 기법
12.6 데이터 주도 인과 관계 설명과 바이럴 마케팅 예제
12.7 요약
13장. 데이터 과학과 비즈니스 전략
13.1 돌아온 데이터 분석적 사고
13.2 데이터 과학으로 경쟁 우위 획득
13.3 데이터 과학으로 경쟁 우위 유지
13.4 데이터 과학자 및 팀의 영입과 육성
13.5 데이터 과학 사례 연구 조사
13.6 모든 창조적인 아이디어의 수용
13.7 데이터 과학 프로젝트 제안서 평가
13.8 기업의 데이터 과학 성숙도
14장. 결론
14.1 데이터 과학의 기본 개념
14.2 데이터가 할 수 없는 일 : 사람이 중심에
14.3 개인 정보 보호, 윤리, 데이터 마이닝
14.4 데이터 과학에 대한 남은 이야기
14.5 마지막 사례 : 크라우드 소싱에서 클라우드 소싱으로
14.6 책을 마치며
부록 A.1 제안서 검토 가이드
부록 A.2 또 다른 제안서 예제
부록 A.3 용어 정리
데이터과학 입문: 구글, MS, 이베이 데이터과학자에게 배우다
레이철 슈트 , 캐시 오닐
웨스 맥키니(Wes Mckinney)
사카마키 류지 , 사토 요헤이