메뉴 바로가기 검색 및 카테고리 바로가기

한빛미디어

독자리뷰

[도서리뷰] 데이터 전처리 대전

lss***

|

2019-12-18

데이터 전처리 대전

데이터 분석의 품질에 큰 영향을 미치는 데이터 전처리는 매우 중요한 작업이다. 전처리 공정을 전체적으로 이해하려면 프로그래밍 언어에 관한 이해뿐만 아니라 통계학이나 머신러닝에 관한 기반 지식이 필요하지만 이를 포괄적으로 설명하는 책은 없었다.

  • 저자 : 모토하시 도모미쓰
  • 번역 : 윤준
  • 출간 : 2019-11-01

- 사진을 세로로 수정하고 진행해도 가로로 등록되는 점 양해 부탁드립니다 -

 

 

 

지루하고 고독한

오랜 연단 위에

마침내

꽃은 핀다.

 

데이터 전처리 대전 中

1.jpg

 

2.jpg

 

3.jpg

 

 

 

 

 

 

개봉샷!

그야말로 머신러닝과 데이터 과학의 시대입니다. 그동안 풀기 어려웠던 문제들이 데이터 과학을 기반으로

상상을 웃도는 좋은 결과를 내고 있으며, 앞으로도 더 많은 문제가 해결될 것입니다.

이제는 단순히 흥미로운 분야가 아니라 정말 반드시 알아야 하고 적극적으로 도입해야 하는 기술 중

하나가 되었습니다.

데이터 전처리 대전 中

어떠한 직업이든 꽃이 피는 순간이 있습니다. 축구 선수라면 골을 넣는 순간일 것이고,

요리사라면 플람베를 하는 순간일 것입니다. 또 컨설턴트라면 프레젠테이션하는 순간,

데이터 과학자라면 아주 훌륭한 발견을 하거나 매우 정밀한 모델을 만들어내는 순간이겠지요.

데이터 전처리 대전 中

머리에 쏙쏙 들어오는 품격있는 글과 함께 책을 시작하게 되어 기쁘다.

요즘 시대에는 빅데이터, 데이터 과학자, 인공지능 등의 용어가 주목받고 있다.

전부 데이터 분석에 관련된 용어들인데, 그만큼 관심이 많아지고 있다는 것은

새로운 시장의 시작을 의미하기도 한다.

그리고 요즘 내가 가장 관심있어 하는 분야이기도 하다.

벌써부터 설렌다! 자~~

시작해볼까!?

DAY 1, 2

데이터 전처리 입문

데이터를 다뤄보자.


데이터 전처리란?

 

4.jpg

 

5.jpg

 

 

데이터란 무엇일까요?

= IT 분야에서는 디지털 데이터를 의미하며 0과 1로 이루어진 2진수로 표현합니다.

데이터 전처리 대전 中

파트 1은 데이터 전처리 개요를 다룬다.

음, 내가 생각하기에 가장 중요한 파트다. 그리고 데이터 분석을 입문하는 분들이 가장 정독해야 될 파트이기도 한 것 같다.

간단한 자료형부터 시작하여 전처리의 역할, 머신러닝, 지도학습과 비지도학습, 전처리의 흐름 등 기술적인 용어도 많이 나오고

생소한 단어도 많이 나온다. 그리고 이 서적에서는 데이터 전처리를 위한 언어로 SQL, R, 파이썬을 채택하여 사용한다.

그동안 DB, 프로그래밍 언어 기술 사용이 원활하지 않는 분들께는 공부가 좀 필요할 수 있다는 뜻이다.

DAY 3, 4, 5

데이터 구조, 내용 전처리

데이터 추출부터 전개까지


수치형 데이터부터 위치정보형 데이터까지

 

 

6.jpg

 

7.jpg

 

 

데이터 구조를 다루는 전처리는 초기 단계에서 실행하는 경우가 많고, 대량의 데이터를 다룹니다.

이 단계에서 오류가 발생하면 데이터 분석도 잘못된 방향으로 흘러가므로 주의해야 합니다.

데이터 전처리 대전 中

파트2부터 본격적으로 데이터를 다룬다.

데이터 열을 이용한 추출, 조건에 따른 데이터 행을 추출하는 방법, 데이터 값을 고려하지 않는 샘플링, 집약 ID에 기반한 샘플링,

우리가 흔히 프로그래밍에서 구하던 최댓값, 최솟값, 대푯값, 분포계산 등도 나온다.

한가지 분명한 것은 DB나 프로그래밍 언어를 모르고 자신감 하나만으로 도전하였을 때는 크게 낭패볼 수 있다.

책도 쉽게 설명한다고 보긴 어렵다고 생각하기 때문에 사전 지식을 익히고 리눅스 환경에도 어느정도 익숙한 분이 보면 좋을 것 같다.

집약, 결합 등 프로그래밍에서도 자주 구하던 데이터를 이렇게 다시 분석해보니 새롭지만, 확실히 다른 점이 많다.

특히 진행하면 할수록 DB, R언어의 중요성도 상당히 높아 많은 공부가 필요할 것 같다.

분할, 생성, 전개까지 마치면 2파트도 얼추 마무리 된다. 실습의 포문을 여는 파트인만큼 정독, 또 정독이 필요하다.

파트 3부터는 머신러닝에 대한 내용도 나오는데, 수치형부터 범주형, 일시형, 문자형의 대한 내용이 주를 이루고 있다.

파트 2가 연습 시작이라면, 파트 3은 실전이다. 그리고 독자가 지루할만한 내용이 잔뜩 들어있어 조금 재미없을 수도 있다.

예를 들어 대수화를 이용한 비선형 변화, 정규화, 주성분 분석을 이용한 차원 압축 등 생전 처음들어보는 문장도 많을 것이다.

그러나 겁먹지 말라! 생각보다 어렵지 않다. 그리고 공식화 되어있는 데이터를 다루는 것이 목적이기 때문에 개요를 잘 정독하고 실습에

충실하여 진행한다면 부담될 정도는 전혀 아니다.

DAY 6, 7

데이터 실천 전처리

연습문제로 복습! 실천!


데이터 환경 구성

 

8.jpg

 

9.jpg

 

 

닫기

해당 상품을 장바구니에 담았습니다.이미 장바구니에 추가된 상품입니다.
장바구니로 이동하시겠습니까?

하단 검색영역

한빛미디어㈜

(03785) 서울 서대문구 연희로2길 62 3층

TEL : 02-325-0384 / FAX : 02-325-9697

대표이사 : 김태헌

사업자등록번호 : 220-81-05665

통신판매업신고 : 2017-서울서대문-0671호