메뉴 바로가기 검색 및 카테고리 바로가기

한빛미디어

데이터 전처리 대전

데이터 분석을 위한 파이썬, SQL, R 실천 기술

한빛미디어

번역서

판매중

  • 저자 : 모토하시 도모미쓰
  • 번역 : 윤준
  • 출간 : 2019-11-01
  • 페이지 : 368 쪽
  • ISBN : 9791162242247
  • 물류코드 :10224
초급 초중급 중급 중고급 고급
0점 (0명)
좋아요 : 3

실무 데이터 분석과 전처리 구현에 필요한 구체적인 기술을 제시하는 활용 가이드

 

데이터 분석의 품질에 큰 영향을 미치는 데이터 전처리는 매우 중요한 작업이다. 전처리 공정을 전체적으로 이해하려면 프로그래밍 언어에 관한 이해뿐만 아니라 통계학이나 머신러닝에 관한 기반 지식이 필요하지만 이를 포괄적으로 설명하는 책은 없었다.

이 책은 저자의 생생한 데이터 분석 실무 경험을 바탕으로 실용적인 전처리 기술을 설명한다. 프로그래밍 언어를 이용해 간단한 개발을 할 수 있는 사람이라면 무리 없이 이해할 수 있도록 쉽게 설명한다. 초급 데이터 과학자뿐만 아니라 데이터 분석 업무를 익히고 싶은 시스템 엔지니어에게도 강력히 추천한다.

 

[상세이미지]데이터 전처리 대전_700.jpg

 

저자

모토하시 도모미쓰

시스템 개발업체 연구원과 웹 계열 회사의 데이터 과학자를 거쳐 현재는 디지털 의료 스타트업의 CTO로 역임 중이다. 양자 어닐링 컴퓨터의 검증에 개인 사업자로 참여하고 있다. 제조업, 소매업, 금융업, 운수업, 레저 산업, 웹 등 다양한 업종의 데이터 분석을 경험했다. 취미로 마리오 AI를 개발한다.

역자

윤준

숭실대학교 미디어학부를 졸업하고 동 대학원 모바일랩에서 미디어 공학을 전공했다. 2007년부터 사용자를 생각하는 UI/UX에 관심을 가졌다. 현재는 프런트엔드 엔지니어로서 웹과 스마트폰 네이티브 개발자로 활동한다. 한빛미디어에서 『초보자를 위한 유니티 입문』(2019)과 『만들면서 배우는 언리얼 게임 프로그래밍』(2015), 『HTML5 핵심 API』(2011)를 번역했다.

 

[1부 전처리 입문]

 

1장 전처리 개요 

1.1 데이터 

1.2 전처리의 역할 

1.3 전처리의 흐름 

1.4 세 가지 프로그래밍 언어 

1.5 패키지/라이브러리 

1.6 데이터셋 

1.7 데이터 읽기 

 

[2부 데이터 구조 전처리]


2장 추출

2.1 데이터 열을 지정한 추출 

2.2 조건에 따른 데이터 행 추출 

2.3 데이터 값을 고려하지 않는 샘플링

2.4 집약 ID에 기반한 샘플링

 

3장 집약 

3.1 데이터와 종류의 개수 산출

3.2 합곗값 계산

3.3 최댓값, 최솟값, 대푯값 산출 

3.4 분포 계산

3.5 최빈값 계산

3.6 순위 계산 

 

4장 결합

4.1 마스터 테이블에서 정보 얻기 

4.2 조건에 따라 결합할 마스터 테이블 변경하기

4.3 과거 데이터에서 정보 얻기 

4.4 상호 결합 

 

5장 분할 

5.1 모델 검증을 위한 데이터 레코드 분할 

5.2 모델 검증을 위한 시간 데이터 분할 

 

6장 생성

6.1 언더샘플링으로 데이터 불균형 조정하기 

6.2 오버샘플링으로 데이터 불균형 조정하기

 

7장 전개 

7.1 가로 데이터로 변환

7.2 희소 행렬로의 변환 

 

[3부 데이터 내용 전처리]


8장 수치형 

8.1 수치형 데이터로 변환

8.2 대수화를 이용한 비선형 변화 

8.3 범주화를 이용한 비선형 변화 

8.4 정규화 

8.5 예욋값 제거

8.6 주성분 분석을 이용한 차원 압축 

8.7 수치의 보완 

 

9장 범주형 

9.1 범주형으로 변환 

9.2 더미 변수화

9.3 범줏값의 집약

9.4 범줏값의 조합

9.5 범주형의 수치화

9.6 범주형의 보완 

 

10장 일시형

10.1 일시형과 날짜형으로 변환 

10.2 연, 월, 일, 시각, 분, 초, 요일로 변환

10.3 일시의 차이로 변환 

10.4 일시형의 증감

10.5 계절로 변환

10.6 시간대로 변환

10.7 평일과 휴일로 변환

 

11장 문자형 

11.1 형태소 분석을 이용한 분해 

11.2 단어의 집합 데이터로 변환

11.3 TF-IDF로 단어의 중요도 조정

 

12장 위치 정보형 

12.1 한국 측지계를 세계 측지계로 변환 

12.2 두 지점 간 거리와 방향 계산

 

[4부 실천 전처리]


13장 연습 문제

13.1 집계 분석 전처리 

13.2 추천 전처리

13.3 예측 모델링 전처리 

 

 

부록 A 예제 환경 구성하기

A.1 SQL 환경 준비하기

A.2 R 환경 준비하기

A.3 파이썬 환경 준비하기

데이터 분석에서 가장 먼저 실행하는 전처리 기술!

SQL과 R, 파이썬 예제로 효과적이고 실용적인 구현 방법 익히기 

 

이 책은 데이터 분석에서도 가장 먼저 실행되는 전처리를 전문적으로 다룬다. SQL과 R, 파이썬이라는 각 언어를 활용해 문제를 풀어나가면서 각 언어의 특징과 장단점을 함께 알려준다. 하지만 여러 언어를 다룬다고 해서 모든 것을 얻을 수 있는 책은 아니다. 이 책은 특정 언어의 스킬을 가르쳐주기보다는 전처리란 무엇인가를 설명하는 데 더 초점을 맞춘다. 특히 다양한 예제를 여러 언어를 활용해 풀어보면서 어떤 식으로 문제에 접근해야 하는지 알려준다. 즉 세 가지 언어의 특징을 통해 각 전처리의 특성을 더욱 잘 이해할 수 있게 구성했다.

 

이 책의 내용은 프로그래밍을 하는 사람이면 누구나 쉽게 따라 할 수 있다. 프로그래밍을 잘 알지 못해도 예제들을 실행해보면서 전처리의 프로세스를 이해할 수 있을 것이다. 저자의 현장 경험을 바탕으로 구성한 예제들을 읽다 보면 그러한 경험과 노하우가 문제에 녹아들어 있음을 알 수 있다. 앞으로 전처리를 다뤄야 할 독자분이라면 언어의 선택부터 전처리를 다루는 팁까지 얻을 수 있는 좋은 자료가 될 것이다.

  • 첫번째 리뷰어가 되어주세요.
부록/예제소스
자료명 등록일 다운로드
DOWNLOAD 예제소스 2019-10-28 다운로드
결재하기
• 문화비 소득공제 가능
• 배송료 : 0원배송료란?

배송료 안내

  • 책, 아이템 등 상품을 3만원 이상 구매시 무료배송
  • 브론즈, 실버, 골드회원이 주문하신 경우 무료배송

무료배송 상품을 포함하여 주문하신 경우에는 구매금액에 관계없이 무료로 배송해 드립니다.

닫기

리뷰쓰기

닫기
* 도서명 :
데이터 전처리 대전
* 제목 :
* 별점평가
* 내용 :

* 리뷰 작성시 유의사항

글이나 이미지/사진 저작권 등 다른 사람의 권리를 침해하거나 명예를 훼손하는 게시물은 이용약관 및 관련법률에 의해 제재를 받을 수 있습니다.

1. 특히 뉴스/언론사 기사를 전문 또는 부분적으로 '허락없이' 갖고 와서는 안됩니다 (출처를 밝히는 경우에도 안됨).
2. 저작권자의 허락을 받지 않은 콘텐츠의 무단 사용은 저작권자의 권리를 침해하는 행위로, 이에 대한 법적 책임을 지게 될 수 있습니다.

오탈자 등록

닫기
* 도서명 :
데이터 전처리 대전
* 구분 :
* 상품 버전
종이책 PDF ePub
* 페이지 :
* 위치정보 :
* 내용 :

도서 인증

닫기
도서명*
데이터 전처리 대전
구입처*
구입일*
부가기호*
부가기호 안내

* 회원가입후 도서인증을 하시면 마일리지 500점을 드립니다.

* 한빛 웹사이트에서 구입한 도서는 자동 인증됩니다.

* 도서인증은 일 3권, 월 10권, 년 50권으로 제한됩니다.

* 절판도서, eBook 등 일부 도서는 도서인증이 제한됩니다.

닫기

해당 상품을 장바구니에 담았습니다.이미 장바구니에 추가된 상품입니다.
장바구니로 이동하시겠습니까?

자료실