Hadoop 완벽 가이드 : 클라우드 컴퓨팅 구축을 위한 실전 안내서

한빛출판네트워크

역자서문 저자서문 1장 하둡과의 만남 1 데이터! 2 데이터 저장소와 분석 3 다른 시스템과의 비교 RDBMS 그리드 컴퓨팅 자발적 컴퓨팅(Volunteer Computing) 4 하둡의 역사 5 아파치 하둡 프로젝트 2장 맵리듀스 1 기상 데이터셋 데이터 포맷 2 유닉스 도구로 데이터 분석하기 3 하둡으로 데이터 분석하기 맵과 리듀스 자바 맵리듀스 4 분산형으로 확장하기 데이터 흐름 컴바이너 함수 분산 맵리듀스 잡 실행하기 5 하둡 스트리밍 루비 파이썬 하둡 파이프 컴파일 및 실행 3장 하둡 분산 파일시스템 1 HDFS 설계 2 HDFS 개념 블록 네임노드와 데이터노드 3 명령행 인터페이스 기본적인 파일시스템 연산 4 하둡 파일시스템 인터페이스 5 자바 인터페이스 하둡 URL로부터 데이터 읽기 파일시스템 API를 사용하여 데이터 읽기 데이터 쓰기 디렉터리 파일시스템에 질의하기 데이터 삭제 6 데이터 흐름 파일 읽기 해부 파일 쓰기 상세 일관성 모델 7 distcp 병렬 복사 HDFS 클러스터 균형 유지 8 하둡 아카이브 하둡 아카이브 사용하기 제약 사항 4장 하둡 I/O 1 데이터 무결성 HDFS와 데이터 무결성 LocalFIleSystem ChecksumFileSystem 2 압축 코덱 압축과 입력 분할 맵리듀스에서 압축 사용하기 3 직렬화 Writable 인터페이스 Writable 클래스 맞춤형 Writable을 구현하기 직렬화 프레임워크 4 파일 기반 데이터 구조 SequenceFile MapFile 5장 맵리듀스 프로그래밍 1 환경설정파일 API 리소스 결합하기 변수 확장 2 개발환경 설정하기 환경설정파일 관리하기 GenericOptionsParser, Tool, ToolRunner 3 유닛 테스트 작성하기 매퍼 리듀서 4 로컬에서 실행하기 로컬 잡 실행하기 드라이버 테스트하기 5 클러스터에서 실행하기 패키징 잡 배포하기 맵리듀스 웹 UI 결과 얻기 잡 디버깅 원격 디버거 사용하기 6 잡 튜닝하기 태스크 프로파일하기 7 맵리듀스 작업 흐름 맵리듀스 잡으로 문제를 분해하기 종속적인 잡 실행 6장 맵리듀스 작동 방법 1 맵리듀스 잡 실행 상세분석 잡 제출 잡 초기화 태스크 할당 태스크 실행 진행 상황과 상태 갱신 잡 완료 2 실패 태스크 실패 태스크트래커 실패 잡트래커 실패 3 잡 스케줄링 페어 스케줄러 4 셔플과 정렬 맵 과정 리듀스 관점 환경설정 튜닝 5 태스크 실행 투기적 실행 태스크 JVM 재사용 비정상 레코드 생략하기 태스크 실행 환경 7장 맵리듀스 타입과 포맷 1 맵리듀스 타입 기본적인 맵리듀스 잡 2 입력 포맷 입력 스플릿과 레코드 텍스트 입력 바이너리 입력 다중 입력 데이터베이스 입력과 출력 3 출력 포맷 Text Output 바이너리 출력 Multiple Outputs 느린 출력 Database Output 8장 맵리듀스 기능 1 카운터 내장 카운터 사용자 정의 자바 카운터 사용자 정의 스트리밍 카운터 2 정렬 준비 부분 정렬 전체 정렬 보조 정렬 3 조인 맵-사이드 조인 리듀스-사이드 조인 4 사이드 데이터 분배 잡 환경설정파일 사용 분산 캐시 5 맵리듀스 라이브러리 클래스 9장 하둡 클러스터 설정 1 클러스터 명세 네트워크 위상 2 클러스터 설정 및 설치 자바 설치 하둡 사용자 생성 하둡 설치 설치 점검하기 3 SSH 설정 4 하둡 환경 설정 환경 설정 파일 관리 개발 환경 설정 중요한 하둡 데몬 속성 하둡 데몬 주소와 포트 번호 다른 하둡 속성들 5 설치 후 6 하둡 클러스터 벤치마킹 하둡 밴치마크 사용자 잡 7 하둡 클라우드 아마존 EC2의 하둡 10장 하둡 관리 1 HDFS 영속적인 데이터 구조 안전모드 감사 로깅 도구 2 모니터링 로깅 매트릭스 자바 관리 익스텐션 3 관리 일상적인 관리 절차 노드 위임과 해제 업그레이드 11장 피그 1 피그의 설치 및 실행 실행 유형 피그 프로그램 실행 그런트 피그 라틴 편집기 2 예제 예제 생성 3 데이터베이스와 비교 4 피그 라틴 구조 문장 표현 타입 스키마 함수 5 사용자 정의 함수 필터 UDF 평가 UDF 로드 UDF 6 데이터 처리 연산자 데이터 로드 및 저장 데이터 필터링 데이터 분류 및 조인 데이터 정렬 데이터 결합 및 분리 7 실전 피그 사용 병렬 처리 파라미터 대체 12장 HBase 1 HBasics 배경 2 개념 짧은 데이터 모델 여행 구현 3 설치 테스트 드라이브 4 클라이언트 자바 REST와 Thrift 5 예제 스키마 데이터 적재 웹 쿼리 6 HBase와 RDBMS 성공적인 서비스 HBase 사용 사례: streamy.com의 HBase 7 연습 버전 사랑과 증오: HBase와 HDFS 사용자 인터페이스 매트릭스 스키마 설계 13장 주키퍼 1 주키퍼의 설치와 실행 2 예제 주키퍼를 이용한 그룹 멤버쉽 그룹 생성 그룹 가입 그룹 멤버 목록화 그룹 삭제 3 주키퍼 서비스 데이터 모델 연산 구현 일관성 세션 4 주키퍼로 응용프로그램 구현하기 환경 설정 서비스 탄력적인 주키퍼 응용프로그램 락 서비스 더 많은 분산 데이터 구조와 프로토콜들 5 주키퍼 실 서비스 탄력성과 성능 환경 설정 14장 사례 연구 1 Last.fm의 하둡 사용 사례 Last.fm: 소셜 음악 혁명 Last.fm과 하둡 하둡으로 차트 생성하기 트랙 통계 프로그램 요약 2 페이스북의 하둡과 하이브 소개 페이스북과 하둡 가상의 사용 사례 연구 하이브 문제점과 향후의 작업 3 너치 검색 엔진 배경 데이터 구조 너치의 하둡 데이터 처리에 관한 선택 예제 요약 5 랙스페이스에서의 로그 처리 요구 사항/ 문제 간략한 역사 하둡 선택 수집과 저장소 로그에 대한 맵리듀스 6 캐스케이딩 필드, 튜플, 파이프 연산 탭, 스킴, 플로우 캐스케이딩의 실제 예제 유연성 쉐어디스에서의 하둡과 캐스케이딩 요약 7 아파치 하둡의 테라바이트 정렬 부록A 아파치 하둡 설치하기 1 준비사항 2 설치 3 환경 설정 부록B 클라우데라의 하둡 배포판 1 준비사항 2 독립 실행 모드 3 의사 분산 모드 4 완전 분산 모드 5 하둡 관련 패키지 부록C NCDC 기상 데이터의 준비 찾아보기

hch2***l2010-08-03

데이터 크기가 방대하다고 한대의 서버에서 처리할 필요는 없다!

* 책의 구성
하둡의 개념과 방대한 API에 대해서 여러 챕터로 나누어서 설명을 하고 있습니다. 각 챕터는 짤막하며 이론설명과 이를 구현하기 위한 API의 사용방법과 관련해 핵심구성요소에 대한 이해를 돕기 위해 예제를 포함해 설명하고 있습니다. 하둡 API의 활용방법을 마치 소설처럼 말로 풀어서 설명을 하고 있는 점이 참 독특했습니다. 또한 모든 외래어에 대해 윗첨자로 영문단어의 표기를 해서 각 단어의 의미를 정확히 파악할 수 있도록 구성을 한 점이 정말 인상적이었습니다. 한국어로만 표기하면 혼동의 여지가 많은데 영어단어로 옆에 표기가 되어 있어서 정확하게 이해할 수 있었습니다.
번역체의 단점이라고 해야 할까요, 필체가 너무 번역스러운 점이 좀 아쉬웠습니다. 저자가 우리나라사람이 쓴 책이 아닌만큼 그 점은 감안해야 할 것 같습니다.
번역본이 아닌 원서의 단점이라고 할까요, 소스코드의 실행과정이 너무 함축적인 점이 아쉬웠습니다. 실제 활용을 위해서는 상당한 연습이 필요할 것 같습니다. 그리고 모든 예제는 리눅스 명령행에서의 파이프 처리, 자바, 루비, 파이썬, C++으로의 예제 설명이 되어 있습니다. 오픈소스답게 모든실행과정이 리눅스인점이 윈도우 유저인 점에서는 정말 아쉬웠습니다. 즉, 책에 제시된 예제들의 실행방법은 리눅스 기준으로 기술되어 있고, 또한 리눅스에서만 완전하게 실행이 가능합니다. 윈도우즈 사용자들이 만약 윈도우에서 하둡의 API를 실행하고자 한다면, CgyWin의 설치와 함께 별도의 환경설정을 반드시 해주어야만 합니다. 이때 CgyWin등의 설치방법도 개별적으로 찾아야 합니다. 모든게 리눅스 환경에서 테스트 되었고, 이래서 오픈소스의 진정한 가치를 알고 싶으면 리눅스 기반에서 테스트하라는 말을 만들고 싶어졌습니다.

* 책의 내용
지금까지 고성능의 서버라면 처리속도도 당연히 빠르므로 한대의 서버만으로도 대용량의 데이터 처리를 할 수 있을것이라 생각했었습니다. 그러나 데이터가 수천만개에서 수십억개까지 증가한다면, 정말 RDBMS의 성능에만 의존할 수 있을까? 라는 의문이 들기 시작했습니다. 하둡의 개념은 거대한 데이터를 일정한 크기로 분할해 N개로 나누고 여러 컴퓨터에서 이들을 병렬로 처리한 다음 그 결과를 취합해서 사용자에게 제공하고자 하는 것입니다. 멀티쓰레딩에도 익숙치 않던 제게 멀티프로세싱도 아닌 엄청난 개수의 컴퓨터들 사이에서 데이터를 나누어 처리한다는 병렬처리방식은 지금까지의 고정관념을 완전히 바꾸어 놓고 있었습니다.
평소 검색엔진 분야에 관심이 있던 저로서는 익숙한 명칭등을 접할 수 있었고 지금까지의 저장장치와 탐색기법의 변천사에 대해서도 알 수 있었습니다. 루씬, 너치, 하둡, 그리고 야후에서 하둡을 채택해 검색사이트를 구성한 배경까지도. 지역적으로 데이터를 분산시키고 이를 처리하는 방법이라든가 탐색을 위해 데이터를 병렬처리하는 방법에 대해서 항상 궁금했습니다. 하둡의 배경지식을 통해 일괄적인 직렬처리과정이 아닌 병렬처리과정을 배울 수 있었습니다.
책 전반에 걸쳐서 분산컴퓨팅에 관련한 이론설명이 강조되어 있습니다. 이 분야에 관심이 있어서 배경지식이 있는 독자가 아니라면 네트워크 및 데이터통신과 관련된 어느정도의 지식을 알고 있어야 책의 내용을 이해하기가 쉬울 듯 합니다(어려운 용어 예시-네트워크 토폴로지).
간혹 안드로이드 OS가 단말기의 성능을 100% 활용하지는 못한다는 말을 들은 적이 있습니다. 화려한 GUI로 사용자에게 편의성을 제공하는 것 뿐만 아니라 하드웨어를 제어하고 그 성능을 활용하는 것 또한 소프트웨어의 역할이기도 합니다. 이러한 사실에 대해 하둡은 어떤 강력한 하드웨어라도 충분히 활용할 수 있다는 것을 증명하고 있습니다.

기타
1쇄이어서 그런지 오자, 탈자가 많이 있습니다. 2쇄에서는 말끔하게 정리될 듯 합니다.

부록/예제소스
자료명	등록일	다운로드
예제소스	2016-04-06	다운로드

부록/예제소스

자료명

등록일

다운로드

예제소스

2016-04-06

다운로드

한빛출판네트워크

인기 검색어 (최근 1개월간)

BOOK

CONTENTS

Hadoop 완벽 가이드 : 클라우드 컴퓨팅 구축을 위한 실전 안내서

자료 다운로드시 유의사항

▶ 부록/자료 관련 FAQ

최근 본 책0