데이터에 대한 생각을 전환하라!
500기가바이트를 59초 만에, 100테라바이트를 단 173분 만에 정렬하는 하둡은 상상을 초월하는 데이터 분석 성능을 제공한다. 구글의 알고리즘을 구현한 하둡은 맵리듀스 기법으로 데이터에 대한 생각을 변화시키고, 이전에 보존해 두었던 그 어떤 데이터든지 활용할 수 있게 한다. 전에는 너무 오랜 시간이 걸려 결과를 얻을 수 없었던 문제도 이제는 하둡으로 빠르게 해답을 얻을 수 있게 되었고, 이를 통해 새로운 통찰력도 얻을 수 있게 되었다.
하둡, 클라우드 컴퓨팅의 역사를 바꾸다!
개정판에서 새로워진 내용
2판은 하이브와 스쿱에 관한 두 개의 새로운 장(12장과 15장), 에이브로를 다루는 새로운 절(4장), 하둡의 새로운 보안 속성에 대한 소개(9장), 하둡을 사용한 대규모 네트워크 그래프 분석에 대한 새로운 사례분석이 추가되었다. 개정판에서도 아파치 하둡 0.20 배포판을 계속 사용하는데, 이 글을 쓰는 시점에서도 여전히 가장 안정적인 최신 버전이기 때문이다. 이후 배포판이 대한 새로운 특성은 가끔 참고용으로 언급된다. 이번 판에서도 아파치 하둡 0.20 배포판을 계속 사용하는데 이 글을 쓰는 시점에서도 여전히 가장 안정적인 최신 버전이기 때문이다. 이후 배포판이 대한 새로운 특성은 가끔 참고용으로 언급된다.
대용량 데이터에 관한 가장 완벽한 책(개정판)!
하둡 프로젝트의 커미터이자 핵심 설계자인 톰 화이트가 저술한 이 책은 하둡을 가장 완벽하게 다루고 있다. 하둡의 개념과 사용법은 물론 Last.fm, 페이스북, 랙페이스의 하둡 활용 사례를 통해 어떻게 하둡을 활용해야 하는지 배울 수 있다. 개정판에서는 최신 변경 내용을 반영하고 하이브, 스쿱, 에이브로 내용을 추가했다.
1장 하둡과의 만남 1 데이터! 2 데이터 저장소와 분석 3 다른 시스템과의 비교 RDBMS 그리드 컴퓨팅 자발적 컴퓨팅 4 하둡의 역사 5 아파치 하둡과 하둡 생태계 2장 맵리듀스 1 기상 데이터셋 데이터 포맷 2 유닉스 도구로 데이터 분석하기 3 하둡으로 데이터 분석하기 맵과 리듀스 자바 맵리듀스 4 분산형으로 확장하기 데이터 흐름 컴바이너 함수 분산 맵리듀스 잡 실행하기 5 하둡 스트리밍 루비 파이썬 6 하둡 파이프 컴파일 및 실행 3장 하둡 분산 파일시스템 1 HDFS 설계 2 HDFS 개념 블록 네임노드와 데이터노드 3 명령행 인터페이스 기본적인 파일시스템 연산 4 하둡 파일시스템 인터페이스 5 자바 인터페이스 하둡 URL로부터 데이터 읽기 파일시스템 API를 사용하여 데이터 읽기 데이터 쓰기 디렉터리 파일시스템에 질의하기 데이터 삭제 6 데이터 흐름 파일 읽기 해부 파일 쓰기 상세 일관성 모델 7 distcp 병렬 복사 HDFS 클러스터 균형 유지 8 하둡 아카이브 하둡 아카이브 사용하기 제약 사항 4장 하둡 I/O 1 데이터 무결성 HDFS와 데이터 무결성 LocalFIleSystem ChecksumFileSystem 2 압축 코덱 압축과 입력 분할 맵리듀스에서 압축 사용하기 3 직렬화 Writable 인터페이스 Writable 클래스 맞춤형 Writable을 구현하기 직렬화 프레임워크 에이브로 4 파일 기반 데이터 구조 SequenceFile MapFile 5장 맵리듀스 프로그래밍 1 환경설정파일 API 리소스 결합하기 변수 확장 2 개발환경 설정하기 환경설정파일 관리하기 GenericOptionsParser, Tool, ToolRunner 3 유닛 테스트 작성하기 매퍼 리듀서 4 로컬에서 실행하기 로컬 잡 실행하기 드라이버 테스트하기 5 클러스터에서 실행하기 패키징 잡 배포하기 맵리듀스 웹 UI 결과 얻기 잡 디버깅 원격 디버거 사용하기 6 잡 튜닝하기 태스크 프로파일하기 7 맵리듀스 작업 흐름 맵리듀스 잡으로 문제를 분해하기 종속적인 잡 실행 6장 맵리듀스 작동 방법 1 맵리듀스 잡 실행 상세분석 잡 제출 잡 초기화 태스크 할당 태스크 실행 진행 상황과 상태 갱신 잡 완료 2 실패 태스크 실패 태스크트래커 실패 잡트래커 실패 3 잡 스케줄링 페어 스케줄러 커패시티 스케줄러 4 셔플과 정렬 맵 과정 리듀스 관점 환경설정 튜닝 5 태스크 실행 투기적 실행 태스크 JVM 재사용 비정상 레코드 생략하기 태스크 실행 환경 7장 맵리듀스 타입과 포맷 1 맵리듀스 타입 기본적인 맵리듀스 잡 2 입력 포맷 입력 스플릿과 레코드 텍스트 입력 바이너리 입력 다중 입력 데이터베이스 입력과 출력 3 출력 포맷 Text Output 바이너리 출력 Multiple Outputs 느린 출력 Database Output 8장 맵리듀스 기능 1 카운터 내장 카운터 사용자 정의 자바 카운터 사용자 정의 스트리밍 카운터 2 정렬 준비 부분 정렬 전체 정렬 보조 정렬 3 조인 맵-사이드 조인 리듀스-사이드 조인 4 사이드 데이터 분배 잡 환경설정파일 사용 분산 캐시 5 맵리듀스 라이브러리 클래스 9장 하둡 클러스터 설정 1 클러스터 명세 네트워크 위상 2 클러스터 설정 및 설치 자바 설치 하둡 사용자 생성 하둡 설치 설치 점검하기 3 SSH 설정 4 하둡 환경 설정 환경 설정 파일 관리 개발 환경 설정 중요한 하둡 데몬 속성 하둡 데몬 주소와 포트 번호 다른 하둡 속성들 사용자 계정 생성 5 보안 커버로스와 하둡 사용 예제 위임 토큰들 다른 보안 강화 사항 6 하둡 클러스터 벤치마킹 하둡 밴치마크 사용자 잡 7 하둡 클라우드 아마존 EC2의 하둡 10장 하둡 관리 1 HDFS 영속적인 데이터 구조 안전모드 감사 로깅 도구 2 모니터링 로깅 매트릭스 자바 관리 익스텐션 3 관리 일상적인 관리 절차 노드 위임과 해제 업그레이드 11장 피그 1 피그의 설치 및 실행 실행 유형 피그 프로그램 실행 그런트 피그 라틴 편집기 2 예제 예제 생성 3 데이터베이스와 비교 4 피그 라틴 구조 문장 표현 타입 스키마 함수 5 사용자 정의 함수 필터 UDF 평가 UDF 로드 UDF 6 데이터 처리 연산자 데이터 로드 및 저장 데이터 필터링 데이터 분류 및 조인 데이터 정렬 데이터 결합 및 분리 7 실전 피그 사용 병렬 처리 파라미터 대체 12장 하이브 1 하이브 설치하기 하이브 쉘 2 예제 3 하이브 실행하기 하이브 설정하기 하이브 서비스 메타스토어 4 전통적인 데이터베이스와의 비교 읽기 스키마와 쓰기 스키마 갱신, 트랜잭션, 색인 5 HiveQL 데이터 타입 연산자와 함수 6 테이블 관리 테이블과 외부 테이블 파티션과 버켓 저장 포맷 데이터 임포트하기 테이블 변경하기 테이블 삭제하기 7 데이터 쿼리하기 정렬과 집계 맵리듀스 스크립트 조인 서브쿼리 뷰 8 사용자 정의 함수 UDF 작성하기 UDAF 작성하기 13장 HBase 1 HBasics 배경 2 개념 짧은 데이터 모델 여행 구현 3 설치 테스트 드라이브 4 클라이언트 자바 에이브로, REST, 쓰리프트 5 예제 스키마 데이터 적재 웹 쿼리 6 HBase와 RDBMS 성공적인 서비스 HBase 사용 사례: streamy.com의 HBase 7 연습 버전 HDFS 사용자 인터페이스 매트릭스 스키마 설계 카운터 벌크로드 14장 주키퍼 1 주키퍼의 설치와 실행 2 예제 주키퍼를 이용한 그룹 멤버쉽 그룹 생성 그룹 가입 그룹 멤버 목록화 그룹 삭제 3 주키퍼 서비스 데이터 모델 연산 구현 일관성 세션 상태 4 주키퍼로 응용프로그램 구현하기 환경 설정 서비스 탄력적인 주키퍼 응용프로그램 락 서비스 더 많은 분산 데이터 구조와 프로토콜들 5 주키퍼 실 서비스 탄력성과 성능 환경 설정 15장 스쿱 1 스쿱 얻기 2 임포트 예제 3 생성된 코드 추가적인 직렬화 시스템 4 데이터베이스 임포트: 자세히 보기 임포트 제어하기 임포트와 일관성 직접 모드 임포트 5 불러온 데이터로 작업하기 임포트된 데이터와 하이브 6 대용량 객체 임포트하기 7 익스포트 수행하기 8 익스포트: 자세히 살펴보기 익스포트와 트랜잭션성 익스포트와 시퀀스파일 16장 사례 연구 1 Last.fm의 하둡 사용 사례 Last.fm: 소셜 음악 혁명 Last.fm과 하둡 하둡으로 차트 생성하기 트랙 통계 프로그램 요약 2 페이스북의 하둡과 하이브 소개 페이스북과 하둡 가상의 사용 사례 연구 하이브 문제점과 향후의 작업 3 너치 검색 엔진 배경 데이터 구조 너치의 하둡 데이터 처리에 관한 선택 예제 요약 4 랙스페이스에서의 로그 처리 요구 사항/ 문제 간략한 역사 하둡 선택 수집과 저장소 로그에 대한 맵리듀스 5 캐스케이딩 필드, 튜플, 파이프 연산 탭, 스킴, 플로우 캐스케이딩의 실제 예제 유연성 쉐어디스에서의 하둡과 캐스케이딩 요약 6 아파치 하둡의 테라바이트 정렬 7 피그와 우공으로 10억 개 간선 네트워크 그래프 탐색하기 커뮤니티 측정하기 모두 나에게 말을 건다: 트위터 응답 그래프 대칭 링크들 커뮤니티 추출 부록A 아파치 하둡 설치하기 1 준비사항 2 설치 3 환경 설정 부록B 클라우데라의 하둡 배포판 부록C NCDC 기상 데이터의 준비
자료명 | 등록일 | 다운로드 |
---|---|---|
예제소스 | 2016-04-06 | 다운로드 |