메뉴 바로가기 검색 및 카테고리 바로가기 본문 바로가기

한빛출판네트워크

하둡 완벽 가이드 : 클라우드 컴퓨팅 구축을 위한 실전 안내서(개정3판)

한빛미디어

번역서

절판

  • 저자 : 톰 화이트
  • 번역 : 심탁길 , 김우현
  • 출간 : 2013-06-22
  • 페이지 : 812 쪽
  • ISBN : 9788968480201
  • 물류코드 :2020
  • 초급 초중급 중급 중고급 고급
3.3점 (3명)
좋아요 : 31

이 책이 제시하는 핵심 내용

 

이 책은 구글의 알고리즘을 구현한 최고의 클라우드 컴퓨팅 기술인 하둡에 대해 다룬다. 특히 하둡 2.x와 맵리듀스 2를 다룬 최초의 책이다. 사실 하둡 2.x와 얀으로 불리는 맵리듀스 2는 기존 버전과 많이 다르다. 새로 추가된 기능들은 기존 버전에서 아쉬웠던 부분을 메꿔주기 때문에 반드시 도입해야 한다. 커미터가 직접 쓴 이 책을 밑거름 삼아 더 성공적인 클라우드 컴퓨팅 시스템을 구현하자!

 

이 책의 특징과 장점

 

하둡 프로젝트의 커미터이자 핵심 설계자인 톰 화이트가 저술한 이 책은 하둡을 가장 완벽하게 다루고 있다. 저자는 하둡 창시자인 더그 커팅을 비롯한 각기 전문가의 강력한 조언을 받았고 이를 본서에 충실하게 반영했다. 이 책은 하둡은 물론이고 하둡과 연동해서 사용할 수 있는, 아파치 하둡 프로젝트의 서브 프로젝트인 피그, 주키퍼, HBase, 하이브, 스쿱, 에이브 등에 대해서도 다룬다. Last.fm, 페이스북, 랙페이스의 하둡 활용 사례를 통해 어떻게 하둡을 활용해야 하는지 배울 수 있다. 본 한글판은 역자주를 통해 하둡 최신 정보를 반영했다.

 

어떤 독자를 위한 책인가?

  • 클라우드 컴퓨팅 분야의 학자, 개발자, 기술 기획자
  • 데이터 마이닝 등 데이터 분석 및 알고리즘 학자, 개발자

 

개정판에서 새로워진 내용

 

3판_ 아파치 하둡의 새로운 버전 0.22와 2.x(이전에는 0.23)뿐만 아니라, 1.x(이전에는 0.20) 모두를 다룬다. 이 책의 예제는 몇 가지 예외 사항(책에서 별도로 표시)을 제외하고 모든 버전을 위해 작성되었다. 각 버전에 대한 특성들은 1장 ‘하둡 릴리즈’에서 상세히 다룬다.
이번 개정판은 새로운 맵리듀스 API를 대부분의 예제에 사용한다. 그럼에도 이전 API가 여전히 폭넓게 활용되고 있기 때문에 새로운 API가 나올 때 함께 논의된다. 이 책에서 제시한 웹 사이트에서 새로운 API에 대응하는 이전 API의 소스 코드가 제공될 것이다.
하둡 2.0의 주요 변화는 얀(YARN)으로 명명된 새로운 분산 리소스 관리 시스템으로 구현된 새로운 맵리듀스(맵리듀스 2)다. 얀 기반의 맵리듀스는 6장과 9장에서 각각 작동 방식 및 실행 방식에 대해 다룬다.
맵리듀스에 대한 더 많은 내용도 다룬다. 메이븐으로 맵리듀스 잡 패키징, 사용자의 자바 클래스 경로 설정, MRUnit으로 테스트 코드 작성과 같은 개발에 필요한 실질적인 내용은 5장에 포함되어 있다. 출력 커미터, 분산 캐시, 태스크 메모리 모니터링과 같은 깊이 있는 맵리듀스 특성은 8장과 9장에서 각각 다룬다. 에이브로 데이터 처리를 위한 맵리듀스 잡 작성은 4장에 새롭게 추가되었고, 오지Oozie를 활용한 간단한 맵리듀스 워크플로우 실행은 5장에 새로 추가되었다.
HDFS 고가용성과 HDFS 통합은 기존 HDFS를 다루었던 3장에 새롭게 추가되었고, WebHDFS와 HttpFS 같은 새로운 파일시스템도 3장에서 함께 다룬다.
피그, 하이브, 스쿱, 주키퍼의 각 장들도 최신 릴리즈의 특성과 변화를 반영하여 내용을 새롭게 추가했다.
이와 더불어 책 전반에 걸쳐 내용에 대한 정정과 개선이 이뤄졌다.

 

2판_ 하이브와 스쿱에 관한 두 개의 새로운 장(12장과 15장), 에이브로를 다루는 새로운 절(4장), 하둡의 새로운 보안 속성에 대한 소개(9장), 하둡을 사용한 대규모 네트워크 그래프 분석에 대한 새로운 사례분석이 추가되었다. 

 

대용량 데이터에 관한 가장 완벽한 책(개정판)!
하둡 프로젝트의 커미터이자 핵심 설계자인 톰 화이트가 저술한 이 책은 하둡을 가장 완벽하게 다루고 있다. 하둡의 개념과 사용법은 물론 Last.fm, 페이스북, 랙페이스의 하둡 활용 사례를 통해 어떻게 하둡을 활용해야 하는지 배울 수 있다. 개정판에서는 최신 변경 내용을 반영하고 하이브, 스쿱, 에이브로 내용을 추가했다.

  • 얀 기반의 맵리듀스
  • 오지(Oozie)를 활용한 맵리듀스 워크플로우 실행
  • 대규모 데이터셋 저장을 위해 하둡 분산파일시스템(HDFS)
  • 맵리듀스를 통한 분산 연산 작업
  • 데이터 압축, 정합성, 직렬화, 영속성을 위한 입출력 빌딩 블록
  • 전용 하둡 클러스터 설계, 구축, 운영 방법
  • 대규모 데이터 처리를 위한 피그
  • 구조화된 데이터와 반-구조화된 데이터를 처리하는 HBase
  • 분산 시스템 구축을 위한 주키퍼
  • 하이브-하둡 데이터웨어하우징 시스템

 

 

톰 화이트 저자

톰 화이트

2007년 2월부터 아파치 하둡 커미터가 되었고, 이후 아파치 소프트웨어 재단의 일원이 되었다. 현재 하둡에 대한 지원과 트레이닝을 제공하는 회사인 클라우데라에서 일하고 있다. 그전에는 독립적인 하둡 고문으로서 하둡을 설치, 사용, 확장하려는 회사와 일했다. 그는 oreilly.com, java.net, IBM developerWorks에 수많은 글을 썼으며 몇몇 컨퍼런스에서 하둡에 관해 연설했다. 톰은 케임브리지 대학교에서 수학 학사학위를 취득하고, 영국 리즈Leeds 대학교에서 과학 철학 석사학위를 취득하였다.

 

심탁길 역자

심탁길

삼성SDS, NHN, SK C&C 등에서 개발팀을 이끌며 클라우드 컴퓨팅 서비스 개발, 빅데이터 분석 등의 업무를 수행했다. 현재 틈틈이 야간에 시간을 내서 클라우드와 빅데이터 분야의 오픈소스 프로젝트를 준비 중이다.

김우현 역자

김우현

woorung@gmail.com
현재 KTH에서 클라우드컴퓨팅을 전담하고 있다. 대학원에서 분산컴퓨팅을 전공하였고, 다수의 회사에서 자연어처리, 정보검색, 데이터/텍스트 마이닝 관련 경험과 지식을 축적하였다. 최근에는 오픈소스 coord(http://www.coordguru.com)를 공개하여 분산기술과 정보기술의 다양한 접근을 시도하고 있다. <2009 공개SW공모대전>에서 "지식경제부 장관상"을 수상했으며, NHN, 삼성 SDS, SKC&C, KT 및 각종 컨퍼런스에서 하둡에 대해 강연했다.

1장 하둡과의 만남
1.1 데이터!
1.2 데이터 저장소와 분석
1.3 다른 시스템과의 비교
1.4 하둡의 역사
1.5 아파치 하둡과 하둡 생태계
1.6 하둡 릴리즈

2장 맵리듀스
2.1 기상 데이터셋
2.2 유닉스 도구로 데이터 분석하기
2.3 하둡으로 데이터 분석하기
2.4 분산형으로 확장하기
2.5 하둡 스트리밍
2.6 하둡 파이프

3장 하둡 분산 파일시스템
3.1 HDFS 설계
3.2 HDFS 개념
3.3 명령행 인터페이스
3.4 하둡 파일시스템
3.5 자바 인터페이스
3.6 데이터 흐름
3.7 데이터 이관을 위한 플룸과 스쿱
3.9 하둡 아카이브

4장 하둡 I/O
4.1 데이터 무결성
4.2 압축
4.3 직렬화
4.4 에이브로 
4.5 파일 기반 데이터 구조 

5장 맵리듀스 프로그래밍
5.1 환경 설정 API 
5.2 개발 환경 설정하기 
5.3 MRUnit으로 유닛 테스트 작성하기 
5.4 로컬에서 실행하기 
5.5 클러스터에서 실행하기 
5.6 잡 튜닝하기 
5.7 맵리듀스 작업 흐름 

6장 맵리듀스 작동 방법
6.1 맵리듀스 잡 실행 상세분석
6.2 실패
6.3 잡 스케줄링
6.4 셔플과 정렬
6.5 태스크 실행

7장 맵리듀스 타입과 포맷
7.1 맵리듀스 타입
7.2 입력 포맷
7.3 출력 포맷

8장 맵리듀스 기능
8.1 카운터
8.2 정렬
8.3 조인
8.4 사이드 데이터 분배
8.5 맵리듀스 라이브러리 클래스

9장 하둡 클러스터 설정 
9.1 클러스터 명세
9.2 클러스터 설정 및 설치
9.3 SSH 설정
9.4 하둡 환경 설정
9.5 얀 환경 설정
9.6 보안
9.7 하둡 클러스터 벤치마킹
9.8 하둡 클라우드

10장 하둡 관리 
10.1 HDFS
10.2 모니터링
10.3 관리

11장 피그
11.1 피그의 설치 및 실행
11.2 예제
11.4 피그 라틴
11.5 사용자 정의 함수
11.6 데이터 처리 연산자
11.7 실전 피그 사용

12장 하이브
12.1 하이브 설치하기
12.2 예제
12.3 하이브 실행하기
12.4 전통적인 데이터베이스와의 비교
12.5 HiveQL
12.6 테이블
12.7 데이터 쿼리하기
12.8 사용자 정의 함수

13장 HBase
13.1 HBasics
13.2 개념
13.3 설치
13.4 클라이언트
13.5 예제
13.6 HBase와 RBMS
13.7 연습

14장 주키퍼
14.1 주키퍼의 설치와 실행 
14.2 예제 
14.3 주키퍼 서비스 
14.4 주키퍼로 응용프로그램 구현하기 
14.5 주키퍼 실 서비스 

15장 스쿱
15.1 스쿱 얻기 
15.2 스쿱 커넥터 
15.3 임포트 예제 
15.4 생성된 코드 
15.5 데이터베이스 임포트: 자세히 살펴보기 
15.6 불러온 데이터로 작업하기 
15.7 대용량 객체 임포트하기 
15.8 익스포트 수행하기 
15.9 익스포트: 자세히 살펴보기 

16장 사례 연구
16.1 Last.fm의 하둡 사용 사례 
16.2 페이스북의 하둡과 하이브
16.3 너치 검색 엔진 
16.4 랙스페이스에서의 로그 처리 
16.5 캐스케이딩 
16.6 아파치 하둡의 테라바이트 정렬 
16.7 피그와 우공으로 10억 개 간선 네트워크 그래프 탐색하기 

부록A_ 아파치 하둡 설치하기 
부록B_ 클라우데라의 하둡 배포판 
부록C_ NCDC 기상 데이터의 준비

책의 내용 자체는 훌륭합니다
하둡에 대한 유익하고 필수적인 내용이 가득합니다

다만 번역이 미흡한 것 같습니다
도저히 내용을 이해할 수 없어 원서를 구해다 대조해보니 오역이 많은 것 같네요
원문의 내용을 그대로 옮기려다 보니 문장이 어색해지는 부분은 번역의 어려움을 감안하면 납득이 가능하겠지만....

storing을 "정렬"이라고 표현한 부분(69페이지)은 내용을 훼손하는 잘못된 번역이라고 생각합니다

물론 바쁜 일정에 쫓기다보니 storing을 sorting이라고 잘못 보실 수 있는 것 이해합니다
하지만 역자께서는 이 문맥에서 왜 이런 단어가 나와야 하는지에 대한 깊은 생각 없이
그저 영문을 국문으로 옮기는 데 급급하셨던 것 아닌가하는 생각이 드네요

이건 비록 하나의 예이지만,
이 밖에도 많은 부분의 문장에 이해하기 어려운 정도를 넘어선
잘못된 의미를 전달하는 오역이 눈에 띄어 이렇게 글 남깁니다

반면 아주 매끄럽고 정확한 번역이 된 부분도 있었습니다
챕터별로 번역의 질이 딱 두 종류더군요
아주 잘 된 챕터, 매우 아쉬운 챕터
이건 아마 역자가 두 분이라 그런 것 같습니다

부디 다음 기회에는 이번처럼 실망스러운 번역으로 훌륭한 서적에 누를 끼치는 일이 없었으면 합니다

"Chang et al"을 "창 잇 알"로 쓰신 부분에서는 죄송하지만 웃음을 감출 수가 없었습니다

이 책은 하둡 프로젝트의 커미터이자 핵심 설계자인 톰 화이트가 저술한 책이다. 핵심 설계가자 저술한 메리트는 과연 책 속에 어떻게 녹아져 들어가 있을까?

다양한 연동 및 활용 측면 부각
핵심 설계자의 관점이어서 그런지 하둡은 물론 하둡과 연동해서 사용할 수 있는 하둡의 서프 프로젝트인 피그, 주키퍼, HBase, 하이브 등을 다룸으로써 하둡 자체만의 기술적 부분을 넘어 활용성 측면에서도 다양하게 신경을 쓴 것 같다. 뿐만 아니라, 책 뒤 부분의 사례연구에서는 인터넷 라디오와 음악 커뮤니티 웹 사이트인 Last.fm, 페이스 북, 기업을 위한 관리 시스템을 제공하는 랙페이스의 하둡 활용 사례를 다루고 있다. 이러한 활용 사례는 독자로 하여금 하둡이라는 기술을 어떻게 사용해야 하는지 좋은 방향성을 제시한다.

내부 구조 및 동작 방식 설명에 집중
다른 분야도 마찬가지지만 특히나 IT의 경우 100장의 글로 설명하는 것 보다 한 장의 그림이 더 명확할 때가 많다. 이 책은 핵심 설계자의 장점을 잘 살려 그림 설명이 매우 명확하게 잘 들어가 있다. Chapter 6의 맵 리듀스 작동 방법 설명은 여느 책에도 볼 수 없는 아주 명쾌한 설명이어서 매우 인상적이었다.

IT 기술서적의 경우 바이블 성격의 일명 베게(?)로 불리우는 많은 서적들이 있다. 이 책 또한 800여 페이지나 되는 방대한 분량으로 첫 인상부터 질릴 수 있지만 막상 Chapter 하나씩 두들겨 보면 명확한 도해와 예제들로 하둡에 쉽게 빠져들게 하는 매력(?)을 느낄 수 있다.

책을 보통 처음부터 차근차근 보기도 하지만, 이 책의 경우 마지막 장의 활용 사례를 먼저 통독하고 각 기술들을 탐닉하는 것도 좋은 접근이 될 듯하다.

자, 그 매력 이제 한 번 느껴보세요~

하둡은 자바기반의 오픈소스 프레임워크이기 때문에 저렴한 비용으로 데이터를 분석할수 있습니다.

주로 앞장에서는 하둡과 맵리듀스에 대한 개념과 관련용어에 대한 설명이 나오고, 중반부터는 하둡과 맵리듀스에 대한 기초적인 설명부터 시작해서 간단한 프로그래밍및 하둡 API에 대해서 상세히 설명하고 있습니다. 후반부는 맵리듀스 뿐만 아니라, 여러가지 하둡을 사용할수 있는 피그, 하이브, HBase, 주키퍼, 스쿱에 대한 설명이 나오고 있고, 마지막장에서 각종 사례에 대해 설명하고 있습니다.

간단히 설명드리면 하둡에 대해서 역사 및 하둡의 현주소, 그리고 기본적인 데이터 등 하둡에 관련된 얘기가 나오고, 하둡을 접해보지 못한 독자라면 1,2장을 꼼꼼히 읽어서 하둡에 대한 기초용어를 알아가야 됩니다. 그리고 맵리듀스에 대한 내용도 나오는데, 맵리듀스란 맵과 리듀스 함수의 합친말로써, 하둡 분산 파일 시스템에 저장된 데이터를 읽고 분석한 후에 결과를 다시 하둡 분산 파일 시스템에 저장하는 역할을 합니다. 즉, 하둡 시스템에 저장하거나 읽을 때 쓰는 하나의 프로그래밍 방법이라고 생각하면 이해가 빠를겁니다.. 2장에서는 맵리듀스를 사용하는 예제라던지 맵리듀스에 관한 전반적인 내용으로 구성되어 있습니다.

3장부터 4장까지는 다시 하둡에 대한 상세 설명히 나오고, 5,6장은 맵리듀스 프로그래밍에 대한 설명이 나옵니다. 가장 중요하다고 생각되는 환경설정 및 기초 세팅하는 법도 자세히 다루고 있습니다.

7장 8장은 맵리듀스의 기능(카운터, 정렬, 데이터 조인...)등에 대한 설명과 맵리듀스 타입에 대한 설명으로 맵리듀스를 사용해서 어떤식으로 입력과 출력 형식을 지정하는지에 대한 설명이 있습니다.

그리고 다시 9장부터 10장까지는 하둡에 대한 설명으로 클러스터를 설정하는 방식과 각종 환경설정 및 보안에 대한 설명이 주를 이루고 있습니다.

11장부터는 맵리듀스가 아닌 다른 방식으로 하둡을 사용하는 프로그래밍 방법에 대한 설명이 나옵니다.
11장부터 15장까지 각각 피그, 하이브, HBase, 주키퍼, 스쿱에 대해 환경설정부터 시작하여 간단한 예제를 통해 데이터베이스 접근 및 활용에 대한 설명을 각 장당 설명하고 있습니다.

16장은 하둡을 사용하는 사례에 대해서 설명하여 마무리를 짓고 있습니다.

결제하기
• 문화비 소득공제 가능
• 배송료 : 2,000원배송료란?

배송료 안내

  • 20,000원 이상 구매시 도서 배송 무료
  • 브론즈, 실버, 골드회원이 주문하신 경우 무료배송

무료배송 상품을 포함하여 주문하신 경우에는 구매금액에 관계없이 무료로 배송해 드립니다.

닫기

리뷰쓰기

닫기
* 도서명 :
하둡 완벽 가이드 : 클라우드 컴퓨팅 구축을 위한 실전 안내서(개정3판)
* 제목 :
* 별점평가
* 내용 :

* 리뷰 작성시 유의사항

글이나 이미지/사진 저작권 등 다른 사람의 권리를 침해하거나 명예를 훼손하는 게시물은 이용약관 및 관련법률에 의해 제재를 받을 수 있습니다.

1. 특히 뉴스/언론사 기사를 전문 또는 부분적으로 '허락없이' 갖고 와서는 안됩니다 (출처를 밝히는 경우에도 안됨).
2. 저작권자의 허락을 받지 않은 콘텐츠의 무단 사용은 저작권자의 권리를 침해하는 행위로, 이에 대한 법적 책임을 지게 될 수 있습니다.

오탈자 등록

닫기
* 도서명 :
하둡 완벽 가이드 : 클라우드 컴퓨팅 구축을 위한 실전 안내서(개정3판)
* 구분 :
* 상품 버전
종이책 PDF ePub
* 페이지 :
* 위치정보 :
* 내용 :

도서 인증

닫기
도서명*
하둡 완벽 가이드 : 클라우드 컴퓨팅 구축을 위한 실전 안내서(개정3판)
구입처*
구입일*
부가기호*
부가기호 안내

* 온라인 또는 오프라인 서점에서 구입한 도서를 인증하면 마일리지 500점을 드립니다.

* 도서인증은 일 3권, 월 10권, 년 50권으로 제한되며 절판도서, eBook 등 일부 도서는 인증이 제한됩니다.

* 구입하지 않고, 허위로 도서 인증을 한 것으로 판단되면 웹사이트 이용이 제한될 수 있습니다.

닫기

해당 상품을 장바구니에 담았습니다.이미 장바구니에 추가된 상품입니다.
장바구니로 이동하시겠습니까?

자료실

최근 본 책0