메뉴 바로가기 검색 및 카테고리 바로가기 본문 바로가기

한빛출판네트워크

하둡 완벽 가이드(4판)

데이터의 숨겨진 힘을 끌어내는 최고의 클라우드 컴퓨팅 기술

한빛미디어

번역서

판매중

  • 저자 : 톰 화이트
  • 번역 : 장형석 , 장정호 , 임상배 , 김훈동
  • 출간 : 2017-03-01
  • 페이지 : 876 쪽
  • ISBN : 9788968484599
  • 물류코드 :2459
  • 초급 초중급 중급 중고급 고급
5점 (4명)
좋아요 : 36

곁에 두고 찾아보는 하둡 최고의 바이블 개정 4판 전격 출간! 

 

하둡 프로젝트의 커미터이자 핵심 설계자인 톰 화이트가 집필한 이 책은 하둡 창시자인 더그 커팅을 비롯한 프로젝트별 전문가의 강력한 조언이 충실하게 반영되어 오랫동안 하둡 개발자의 바이블로서 자리를 지켜왔다. 

이번 4판에서는 하둡 2.0 기반 YARN, 파케이, 플룸, 크런치, 스파크 프로젝트 예제와 헬스케어 시스템과 유전체 분석 사례가 새로이 추가되었다. 최신 하둡 정보는 물론이고 하둡과 연동하는 아파치 하둡 프로젝트의 서브 프로젝트인 피그, 주키퍼, HBase, 하이브, 스쿱, 에이브 등에 대해서도 다루기 때문에 하둡에 대한 전반적인 지식을 얻을 수 있다. 이 책은 대규모 데이터셋을 분석하는 개발자와 하둡 클러스터를 구축하고 사용하는 시스템 관리자를 위한 최고의 지침서다.

톰 화이트 저자

톰 화이트

2007년 2월부터 아파치 하둡 커미터가 되었고, 이후 아파치 소프트웨어 재단의 일원이 되었다. 현재 하둡에 대한 지원과 트레이닝을 제공하는 회사인 클라우데라에서 일하고 있다. 그전에는 독립적인 하둡 고문으로서 하둡을 설치, 사용, 확장하려는 회사와 일했다. 그는 oreilly.com, java.net, IBM developerWorks에 수많은 글을 썼으며 몇몇 컨퍼런스에서 하둡에 관해 연설했다. 톰은 케임브리지 대학교에서 수학 학사학위를 취득하고, 영국 리즈Leeds 대학교에서 과학 철학 석사학위를 취득하였다.

 

장정호 역자

장정호

네이버 검색 소프트웨어 엔지니어. 2006년에 티맥스에서 애플리케이션/시스템 간 데이터 전송 시스템 개발을 시작으로, 다음커뮤니케이션에서 데이터 마이닝 업무, SAP에서 칼럼 기반의 인메모리 RDBMS인 HANA 개발에 동참했으며, 그 후 빅데이터 저장/분석 시스템 영역에 관한 연구를 통해 네이버에서 데이터 분석 시스템을 개발을 담당하고 있습니다. 한빛미디어에서 『쿠퍼네티스 모범 사례』(2020), 『하둡 완벽 가이드(4판)』(2017), 『하이브 완벽 가이드』(2013) 등을 번역했습니다.

 

SK텔레콤의 데이터 플랫폼 엔지니어. 네이버와 SAP에서 데이터 플랫폼과 데이터베이스 개발에 참여했습니다.

 

장형석 역자

장형석

1996년 공군사관학교에서 기상예보 장교로 실무를 시작했다. 전역 후 닷컴솔루션이란 회사를 창업하고 자연어처리, 검색엔진, 그룹웨어, ERP 솔루션을 개발했다. 2012년부터는 회사를 정리하고 국내 1호 빅데이터 대학원인 충북대학교 비즈니스데이터융합학과의 교수로 부임하여 분산병렬처리(하둡), 데이터 마이닝과 머신러닝(스파크), 시각화 과목을 맡고 있다. 현재 국민대학교 빅데이터경영MBA과정 겸임교수와 연세대학교 데이터사이언스 과정 외래교수를 맡고 있으며, 숙명여대, 한국생산성본부, 삼성SDS 등 다수의 대학교 및 기업에 출강하고 있다.

임상배 역자

임상배

Principal Sales Consultant. 현재 한국오라클 Core Tech 본부 빅데이터팀에서 빅데이터 솔루션 컨설팅 업무를 하고 있으며 하둡, 스파크, R 기반의 오픈 소스 기술을 활용한 솔루션과 데이터 가상화 솔루션을 담당하고 있다. 빅데이터 처리 및 분석을 주제로 대학, 협회, 기업 등에서 강의를 하고 있다. 오라클에 입사하기 전에는 한국사이베이스에서 금융, 통신, 제조, 공공 등 다양한 분야에서 데이터 웨어하우스, 복합 이벤트 처리, 엔터프라이즈 아키텍처 모델링 솔루션 컨설팅 업무를 했고 현대정보기술에서는 정보계 시스템 구축 프로젝트 수행, 비트컴퓨터에서는 분석 플랫폼 개발을 했다.

김훈동 역자

김훈동

신세계 SSG.COM 빅데이터팀 리더. 연세대학교에서 컴퓨터공학을 전공하고, 빅데이터 및 NoSQL로 석사학위를 받았다. 21살이었던 대학교 3학년 때 처음으로 벤처기업을 창업했다. 총 두 번의 벤처기업을 창업했으며, 두 번째 회사는 챗봇 관련 대화 에이전트 회사였다.

석사과정 중 빅데이터 세계에 입문한 이후, 커다란 데이터를 찾아 현재의 신세계그룹에 입사해 현재는 이마트 및 신세계 백화점의 온·오프 유통 데이터를 수집하고 분석하고 기계학습을 적용하는 업무를 리딩하고 있다. 한국 스파크 사용자 모임과 하둡, 스파크, 머신러닝 분야의 한국 마이크로소프트 MVP로 활동하고 있다. 최근에는 딥러닝 NLP 분야의 오픈소스 연구에 참여하고 있다.

★★★ Part 1 하둡 기초 ★★★

 

CHAPTER 1 하둡과의 만남

1.1 데이터!

1.2 데이터 저장소와 분석

1.3 전체 데이터에 질의하기

1.4 일괄 처리를 넘어서

1.5 다른 시스템과의 비교

1.6 아파치 하둡의 간략한 역사

1.7 이 책의 내용

 

CHAPTER 2 맵리듀스

2.1 기상 데이터셋

2.2 유닉스 도구로 데이터 분석하기

2.3 하둡으로 데이터 분석하기

2.4 분산형으로 확장하기

2.5 하둡 스트리밍

 

CHAPTER 3 하둡 분산 파일시스템

3.1 HDFS 설계

3.2 HDFS 개념

3.3 명령행 인터페이스

3.4 하둡 파일시스템

3.5 자바 인터페이스

3.6 데이터 흐름

3.7 distcp로 병렬 복사하기

 

CHAPTER 4 YARN

4.1 YARN 애플리케이션 수행 해부해보기

4.2 YARN과 맵리듀스 1의 차이점

4.3 YARN 스케줄링

4.4 참고 도서

 

CHAPTER 5 하둡 I/O

5.1 데이터 무결성

5.2 압축

5.3 직렬화

5.4 파일 기반 데이터 구조

 

★★★ Part 2 맵리듀스 ★★★

 

CHAPTER 6 맵리듀스 프로그래밍

6.1 환경 설정 API

6.2 개발환경 설정하기

6.3 엠알유닛으로 단위 테스트 작성하기

6.4 로컬에서 실행하기

6.5 클러스터에서 실행하기

6.6 잡 튜닝하기

6.7 맵리듀스 작업 흐름

 

CHAPTER 7 맵리듀스 작동 방법

7.1 맵리듀스 잡 실행 상세분석

7.2 실패

7.3 셔플과 정렬

7.4 태스크 실행

 

CHAPTER 8 맵리듀스 타입과 포맷

8.1 맵리듀스 타입

8.2 입력 포맷

8.3 출력 포맷

 

CHAPTER 9 맵리듀스 기능

9.1 카운터

9.2 정렬

9.3 조인

9.4 사이드 데이터 분배

9.5 맵리듀스 라이브러리 클래스

 

★★★ Part 3 하둡 운영 ★★★

 

CHAPTER 10 하둡 클러스터 설정

10.1 클러스터 명세

10.2 클러스터 설치 및 설정

10.3 하둡 환경 설정

10.4 보안

10.5 하둡 클러스터 벤치마크

 

CHAPTER 11 하둡 관리

11.1 HDFS

11.2 모니터링

11.3 유지 보수

 

★★★ Part 4 관련 프로젝트 ★★★

 

CHAPTER 12 에이브로

12.1 에이브로 자료형과 스키마

12.2 인메모리 직렬화와 역직렬화

12.3 에이브로 데이터파일

12.4 상호운영성

12.5 스키마 해석

12.6 정렬 순서

12.7 에이브로 맵리듀스

12.8 에이브로 맵리듀스를 이용하여 정렬하기

12.9 다양한 언어에서 에이브로 사용하기

 

CHAPTER 13 파케이

13.1 데이터 모델

13.2 파케이 파일 포맷

13.3 파케이 설정

13.4 파케이 파일 쓰기와 읽기

13.5 파케이 맵리듀스

 

CHAPTER 14 플룸

14.1 플룸 설치

14.2 예제

14.3 트랜잭션과 신뢰성

14.4 HDFS 싱크

14.5 분기

14.6 분배: 에이전트 계층

14.7 싱크 그룹

14.8 애플리케이션과 플룸의 통합

14.9 컴포넌트 목록

14.10 참고 도서

 

CHAPTER 15 스쿱

15.1 스쿱 얻기

15.2 스쿱 커넥터

15.3 임포트 예제

15.4 생성된 코드

15.5 임포트 자세히 살펴보기

15.6 불러온 데이터로 작업하기

15.7 대용량 객체 임포트하기

15.8 익스포트 수행하기

15.9 익스포트 자세히 살펴보기

15.10 참고 도서

 

CHAPTER 16 피그

16.1 피그의 설치 및 실행

16.2 예제

16.3 데이터베이스와 비교

16.4 피그 라틴

16.5 사용자 정의 함수

16.6 데이터 처리 연산자

16.7 피그 실무

16.8 참고 도서

 

CHAPTER 17 하이브

17.1 하이브 설치하기

17.2 예제

17.3 하이브 실행하기

17.4 전통적인 데이터베이스와의 비교

17.5 HiveQL

17.6 테이블

17.7 데이터 질의하기

17.8 사용자 정의 함수

17.9 참고 도서

 

CHAPTER 18 크런치

18.1 예제

18.2 크런치 핵심 API

18.3 파이프라인 실행

18.4 크런치 라이브러리

18.5 참고 도서

 

CHAPTER 19 스파크

19.1 스파크 설치

19.2 예제

19.3 탄력적인 분산 데이터셋 RDD

19.4 공유변수

19.5 스파크 잡 수행 분석

19.6 익스큐터와 클러스터 매니저

19.7 참고 도서

 

CHAPTER 20 HBase

20.1 HBase 개요

20.2 개념

20.3 설치

20.4 클라이언트

20.5 온라인 쿼리 애플리케이션 구축

20.6 HBase와 RDBMS의 비교

20.7 활용

20.8 참고 도서

 

CHAPTER 21 주키퍼

21.1 주키퍼 설치와 실행

21.2 예제

21.3 주키퍼 서비스

21.4 주키퍼 애플리케이션 구현

21.5 주키퍼 실 서비스

21.6 참고 도서

 

★★★ Part 5 사례 연구 ★★★

 

CHAPTER 22 서너의 구조적 데이터

22.1 CPU에서 시맨틱 통합까지

22.2 아파치 크런치의 도입

22.3 완전한 설계도의 제작

22.4 헬스케어 데이터 통합

22.5 프레임워크를 뛰어넘는 결합성

22.6 발전 방향

 

CHAPTER 23 생물학의 데이터 과학: 소프트웨어로 생명 구하기

23.1 DNA 구조

23.2 유전 암호: DNA 글자의 단백질 전환

23.3 DNA를 소스 코드처럼 생각하기

23.4 인간 게놈 프로젝트와 표준 게놈

23.5 DNA 시퀀싱과 얼라이닝

23.6 대규모 게놈 분석 플랫폼 ADAM

23.7 개인맞춤광고에서 개인맞춤의학까지

23.8 참여하기

 

CHAPTER 24 캐스케이딩

24.1 필드, 튜플, 파이프

24.2 연산

24.3 탭, 스킴, 플로

24.4 예제

24.5 유연성

24.6 쉐어디스에서의 하둡과 캐스케이딩

24.7 요약

 

부록 A 아파치 하둡 설치하기

부록 B 클라우데라 아파치 하둡 배포판

부록 C NCDC 기상 데이터 준비

부록 D 예전과 새로운 자바 맵리듀스 API

★ 개정4판에서 새로워진 내용

4판은 하둡 2 버전만을 다룬다. 하둡 2 버전은 현재 가장 활발히 개선되고 있으며 가장 안정된 하둡 버전이다. YARN(4장), 파케이(13장), 플룸(14장), 크런치(18장), 스파크(19장)를 다루는 새로운 장이 추가되었다. 이 책을 읽는 다양한 순서를 독자들에게 알려주는 절도 포함되었다. 또한 새로운 두 가지 사례 연구를 포함한다. 첫 번째는 헬스케어 시스템에서 하둡을 사용하기(22장), 두 번째는 하둡으로 유전체 데이터를 처리하기(23장)다. 하둡 최신 버전과 관련 프로젝트를 반영하고자 기존 내용에 많은 수정을 가해 개선했다. 

 

 

★ 대상 독자

 - 시스템 관리자

 - 클라우드 컴퓨팅 분야의 학자, 개발자, 기술 기획자

 - 데이터 마이닝 등 데이터 분석 및 알고리즘 학자, 개발자

 

 

★ 이 책에서 다루는 기술

 - 맵리듀스, HDFS, YARN

 - 애플리케이션 개발

 - 피크, 하이브, 크런치, 스파크

 - 분산 데이터베이스 HBase

 - 분산 설정 서비스 주키퍼

 - 하둡 클러스터 관리 및 설정

 - 에이브로로 데이터 직렬화하기

 - 파케이로 중첩 데이터 처리하기

 - 플룸으로 데이터 수집하기

 - 스쿱으로 데이터 일괄 전송하기

 

데이터 엔지니어라면 꼭 가지고 있으면 좋은 책입니다!
 
엄청 자세한 내용을 담고 있습니다
 
하둡의 개념 설명 ( 역사, 맵리듀스, HDFS )부터 확장해서 YARN, 플룸, 스파크 등의 내용까지 담고 있습니다
 
이 책의 장점은
- 자세한 설명
- 실제 사례 포함 ( 유전 데이터를 활용한 사례 ) 
- 추가로 볼 자료 제공(스파크의 경우 참고 도서가 적혀있습니다)
 
입니다-!
 
단점은 책이 너무 두꺼운 점..? 
가격이 생각보다 높다는 점 정도를 들 수 있겟네요
 
저는 특히 아래의 부분들이 마음에 들었습니다
 
CHAPTER 19 스파크 
19.1 스파크 설치 
19.2 예제 
19.3 탄력적인 분산 데이터셋 RDD 
19.4 공유변수 
19.5 스파크 잡 수행 분석 
19.6 익스큐터와 클러스터 매니저 
19.7 참고 도서 
 
★★★ Part 5 사례 연구 ★★★ 

CHAPTER 22 서너의 구조적 데이터 
22.1 CPU에서 시맨틱 통합까지 
22.2 아파치 크런치의 도입 
22.3 완전한 설계도의 제작 
22.4 헬스케어 데이터 통합 
22.5 프레임워크를 뛰어넘는 결합성 
22.6 발전 방향 

CHAPTER 23 생물학의 데이터 과학: 소프트웨어로 생명 구하기 
23.1 DNA 구조 
23.2 유전 암호: DNA 글자의 단백질 전환 
23.3 DNA를 소스 코드처럼 생각하기 
23.4 인간 게놈 프로젝트와 표준 게놈 
23.5 DNA 시퀀싱과 얼라이닝 
23.6 대규모 게놈 분석 플랫폼 ADAM 
23.7 개인맞춤광고에서 개인맞춤의학까지 
23.8 참여하기 

 

 

#1

책을 항상 깔끔하게 유지하고 싶은 마음에 책을 받자마자 비닐 포장으로 감싸고 읽어보기 시작했습니다. 1장을 읽어나가면서 느낀 것은 번역이 정말 잘 된 것 같다는 것이었습니다. 번역서를 읽다보면 문맥이 이상해서 이해가 잘 안되는 경우가 많았는데 이 책은 마치 한국분이 작성한 책 처럼 술술 잘 읽혔습니다. 물론 책의 두께처럼 심도있는 내용들을 다루기 때문에 쉽지는 않지만 자연스러운 문장 덕에 이해하는데 도움이 많이 되었습니다.


#2

하둡에 대해서는 이름만 알고 있는 상태였고 실제로 어떤 원리로, 어떠한 곳에 쓰이는 지는 잘 모르는 상태로 접했는데, 읽다보니 여러가지 아이디어와 현재 개발 중인 프로젝트에서 적용할 수 있을 법한 것들이 떠올랐습니다.

진행 중인 프로젝트에서는 사용자들의 정보를 수집하고 통계를 내는 데 ELK(Elasticsearch + Logstash + Kibana)를 사용하고 있는데, 유저 데이터가 쌓일 수록 Elasticsearch의 용량이 점점 커지게 되므로 나중에는 분명히 한계에 다다를 것을 예상할 수 있었습니다. 이 때 과연 어떻게 처리를 할것인가가 큰 고민중에 하나였는데, 책을 읽다보니 하둡이 좋은 해결책이 될 수 있을 것 같았습니다.

#3

처음에는 모든 개념을 숙지하고 싶은 마음에 모든 개념을 하나하나 파악하려고 노력을 했었습니다. 하지만 1~3장을 읽다보니 생소한 개념들과 어려운 용어들이 나와서 몇번을 반복해서 읽게 되었는데, 진도가 너무 나가지 않아서 우선은 어렴풋이 이해하고 넘어가고 나중에 실제 적용할 때 디테일하게 살펴보는 방향으로 목표를 재설정해야했습니다. 그래서 이론적인 부분은 빠르게 넘어가고 실제 사용 부분을 살펴보며 막히는 부분에 대한 이론적인 내용을 다시 찾아가서 살펴보았습니다.

저의 경우 단순히 각 기능들을 사용하는 것보다는 이 기능들이 동작하는 원리에 대해 이해를 하고 조금 깊게 들여다보는 것을 좋아하는데 이 책은 그러한 부분들을 만족시켜주었습니다. 그리고 중간 중간 실제 코드를 예제로 보여주면서 거기에 대한 설명을 보충해주기 때문에 직접 따라해볼 수도 있고, 이해하는데도 큰 도움이 되었습니다. 


#4

책에서 언급하듯이 어떠한 기술이든 장점과 단점이 존재하기 때문에 자신의 프로젝트에 적합한 기술을 잘 선택하는 것이 중요합니다. 하둡은 그런면에서 실시간으로 원하는 데이터를 빠르게 가져오는 데에는 이에 적합한 다른 기술들에 비해 비효율적이지만 대량의 데이터 속에서 원하는 데이터를 검색해야 하는 경우, 거기에 더해서 속도 보다는 정확도를 중요시하는 곳에서는 적합할 수 있습니다. 이 대량의 데이터를 다루는 것이 참 어려운 부분인데 하둡에서 제공하는 기능들을 잘 활용하면 개발자가 구현해야할 번거로움을 많이 덜 수 있을 것입니다. 물론 이 책에서 이러한 기능들에 대한 설명을 디테일하게 잘 설명해주고 있습니다.

 

#5

그래서 결론적으로 현재 진행 중인 프로젝트에서는 한달 이상 된 데이터는 검색할 일이 거의 없다는 판단에 근 한달간의 사용자 데이터는 Elasticsearch에 보관하고, 이보다 오래된 데이터들은 하둡에 저장하여 실시간으로 통계 정보를 눈으로 확인해야 하는 Elasticsearch에 최소한의 데이터를 유지하는 전략으로 진행해볼 생각입니다.

아직 우선순위가 높지 않아서, 실제 구현은 들어가지 않았지만 구현에 들어가면 그 과정을 블로그에 포스팅 해보려고 합니다. 



출처: http://yongho1037.tistory.com/714 [용호의 블로그]

빅 데이터(영어: big data)란 기존 데이터베이스 관리도구의 능력을 넘어서는 대량(수십 테라바이트)의 정형 또는 심지어 데이터베이스 형태가 아닌 비정형의 데이터 집합조차 포함한 데이터로부터 가치를 추출하고 결과를 분석하는 기술이다.

  위키피디아


몇년 전부터 빅데이터 키워드는 흔하게 사용되고 있다. 위 설명에서도 알겠지만 대량의 정형, 비정형 데이터로부터 분석을 할 수 있게하는 기술을 말한다. 사실 나는 데이터 처리에 대해서는 몇년 전부터 관심이 있었다. 가령 CPU 명령어 레벨부터 multi-core processing, GPGPU까지 관심을 넓혀나가고 있었지만 이런 기술들은 정보를 저장하고 분석하기 보다는 실시간으로 들어오는 데이터를 처리하기 위한 기술들이다. 의료계 활용 사례들에 대한 기사를 보면서 하둡에 대해서 알게 되었고 빅데이터 및 분산 처리에 대한 관심을 갖게 되었다.

 

이 책은 톰 화이트가 지었다. 톰 화이트는 하둡 커미터 역할과 프로젝트 관리 위원회 위원으로써 아마존의 EC2와 S3서비스에서도 제대로 동작하는 하둡을 만드는 전문적인 기술을 가진 사람이다. 우선 하둡을 만들어가고 있는 사람이 작성한 책으로써 가치가 있다. 알라딘이나 yes24등 온라인 서점에서 "하둡"이란 키워드를 검색하면 맨 처음 나올 정도로 인지도고 있는 책이기도 하다. 인지도나 저자면에서 책을 살만한 충분한 동기가 되지만 무지막지하게 비싼 가격은 큰 단점이다.

 

이 책은 크게 5부로 구성되어 있으며, 1~3부는 하둡의 핵심을, 4부에서는 하둡 에코시스템, 5부는 하둡 사례연구를 다룬다. 하둡에 대한 기본 내용만 따진다면 3부까지 400페이지가 된다.

 

"Part1 하둡 기초" 부분의 설명은 몇번이나 볼 정도로 괜찮다. 데이터 처리량이 증가되고 있는 현실부터 시작하여 단일 디스크의 한계점, 다른 시스템과의 비교(RDBMS, HPC) 비교, 맵 리듀스의 특징등을 잘 설명하고 있다.

 

 

 

아래는 맵 리듀스에 대한 책 내용 중 일부이다. 저장된 전 세계 기온 정보를 가지고 연도별 최고 기온을 찾는 예제를 기반으로 쉘로 작성한 것과 맵 리듀스로 작성한 것을 비교하여 설명한다. 실제로 예제 코드를 보여주고 아래와 같이 논리적 데이터 흐름을 그림으로 정리해주기 때문에 기술을 이해하기 좋다.

 

 

 

전반적으로 많은 예제들과 그림들이 포함되어 있어 읽는데 어려움은 없지만 약간의 팁을 적는다면 Part I을 읽고 Part III 하둡 운영, Part II 맵 리듀스 순서로 보는게 좋다. Part I에서 기본적인 개념의 감을 잡고, Part III 를 활용하여 실습 환경을 꾸민 뒤, Part II 내용을 실습하길 바란다. 

 

작년부터 머신러닝으로 인하여 인지도가 높아지고 있는 스파크에 대한 설명도 있다. 그외 하이브, 플룹등 다양한 관련 프로젝트에 대한 설명이 있으니 각각의 내용을 읽어보고 필요시 활용하면 좋을 듯 싶다.

 

 

 

 

이러 사람이 읽으면 좋다.

  • 빅데이터에 관심이 있고 하둡을 고려하고 있는 사람

 

이 책을 읽으려면, 아니 몰입을 하기 위해서는

  • CPU, 메모리, 디스크 I/O 등 컴퓨터 구조에 대한 기본 지식을 알고 있어야 한다.
  • 대부분의 예시는 자바로 작성되어 있다. 최소 객체 지향 언어에 대한 기본적인 이해가 필요하다.
  • 실습을 위해, 리눅스 배포판에서 패키지를 설치하고 설정할 수 잇어야 한다.
  • 실습을 위해, 분산 처리 구성을 해야 하니 네트워크에 대한 기본 지식을 가지고  있어야 한다.

 

빅데이터 또한 예전부터 존재하고 있는 기술이지만 하둡을 통해서 손쉽게 사용할 수 있게 되지 않았을까 싶다. 그런면에서 하둡의 동작방식을 이해하고 학습하는 것은 꽤 의미있는 일이라고 생각한다.

빅데이터에 관심은 있었지만 실제로 어떻게 접근해야 할지 막막한 초보자에게 한줄기 빛이 되는 바이블격 책이 나왔다.
<하둡 완벽 가이드 4판>은 판올림이 되면서 새로운 사례들과 최신 기술들을 소개하고 있다.

크게 4가지 Part로 나누어져있다.
Part1 하둡 기초에서는 하둡의 기반 구성요소를 다루게 된다. 뒤에 나오는 내용을 이해하기 위해 읽어야하는 Part이다.
Part2 맵리듀스에서는 맵리듀스를 심도 있게 다룬다. 맵리듀스는 데이터 처리를 위한 프로그래밍 모델이다.
Part3 하둡 운영에서는 실무에서 필요한 기본적인 클러스터 구축 방법과 운영할 때 필요한 충분한 정보를 제공한다.
Part4 관련 프로젝트에서는 하둡 기반의 전용 프로젝트와 관련 프로젝트를 다룬다. 페이스북의 대량의 데이터를 분석할 수 있도록 개발된 하이브, 아파치 스파크, 컬럼 기반 분산 데이터베이스 HBase, 하둡의 분산 코디네이션 서비스인 주키퍼 등 다양한 프로젝트를 소개해 준다.
Part5 사례 연구에서는 흥미로운 방식으로 하둡을 사용한 사람들이 기고한 사례 연구를 설명한다.

책을 읽으면서 느낀건 일단 어느정도 프로그래밍에 대한 지식과 리눅스 운영체제, 데이터베이스 경험이 있어야 한다는 점이고,
빅데이터 입문자라면 Part1을 집중공략하는것이 좋아 보인다.
특히 Part4의 경우 어떤 프로젝트는 설치법도 나오고 API 소개도 해주는데 초보자가 따라하기에는 힘든 부분이 없지 않다. 각 프로젝트 하나 가지고도 책한권이 필요한 것들이 이기 때문에 이 책에서는 맛보기 정도라고 생각하면 좋을 것이다.
초보자라도 Part5 사례 연구는 읽어보길 추천한다. 하둡을 어떻게 적용했는지 아이디어 적인 측면에서도 도움이 많이 된다.
맨 마지막에 INDEX가 잘 되어있어 필요한 명령어나 용어를 찾기 쉽게 되어 있다. 하둡 작업을 하면서 레퍼런스로 사용하면 좋다.

 

하둡 설치법도 친절하게 설명되어있으니 이 책을 옆에 끼고 실습을 해보면서 실력을 늘려보자.

결제하기
• 문화비 소득공제 가능
• 배송료 : 2,000원배송료란?

배송료 안내

  • 20,000원 이상 구매시 도서 배송 무료
  • 브론즈, 실버, 골드회원이 주문하신 경우 무료배송

무료배송 상품을 포함하여 주문하신 경우에는 구매금액에 관계없이 무료로 배송해 드립니다.

닫기

리뷰쓰기

닫기
* 도서명 :
하둡 완벽 가이드(4판)
* 제목 :
* 별점평가
* 내용 :

* 리뷰 작성시 유의사항

글이나 이미지/사진 저작권 등 다른 사람의 권리를 침해하거나 명예를 훼손하는 게시물은 이용약관 및 관련법률에 의해 제재를 받을 수 있습니다.

1. 특히 뉴스/언론사 기사를 전문 또는 부분적으로 '허락없이' 갖고 와서는 안됩니다 (출처를 밝히는 경우에도 안됨).
2. 저작권자의 허락을 받지 않은 콘텐츠의 무단 사용은 저작권자의 권리를 침해하는 행위로, 이에 대한 법적 책임을 지게 될 수 있습니다.

오탈자 등록

닫기
* 도서명 :
하둡 완벽 가이드(4판)
* 구분 :
* 상품 버전
종이책 PDF ePub
* 페이지 :
* 위치정보 :
* 내용 :

도서 인증

닫기
도서명*
하둡 완벽 가이드(4판)
구입처*
구입일*
부가기호*
부가기호 안내

* 온라인 또는 오프라인 서점에서 구입한 도서를 인증하면 마일리지 500점을 드립니다.

* 도서인증은 일 3권, 월 10권, 년 50권으로 제한되며 절판도서, eBook 등 일부 도서는 인증이 제한됩니다.

* 구입하지 않고, 허위로 도서 인증을 한 것으로 판단되면 웹사이트 이용이 제한될 수 있습니다.

닫기

해당 상품을 장바구니에 담았습니다.이미 장바구니에 추가된 상품입니다.
장바구니로 이동하시겠습니까?

자료실

최근 본 책0