9가지 사례로 익히는 고급 스파크 분석

제목 그대로 각 예제를 통해 스파크 분석을 맛볼 수 있는 책입니다.

책에 담겨져있는 예제들은 교과서 적인 예제들을 벗어나서

과거 실제로 분석에 사용되었던 자료를 사용하였습니다.

그래서 이를 통해 나중에 현장에서 실질적인 분석을 수행하실때

비슷한 주제의 부분을 참고하시기에 좋아보입니다.

이 책은 해당 분야에 대한 큰 그림을 독자에게 설명합니다.

(물론 분석은 스파크를 이용 하였구요.)

하지만 분석의 세세한 부분의 설명은 부족합니다.

책에서도 언급했듯이 이 책에서는 선형대수학이나 통계학에 대한 설명이 없습니다.

그래서 주성분 분석이나 특이값 분해 등등의 내용들은 따로 공부를 하셔야 합니다.

(위키피디아 내용으로 대체된 설명이 많은데 그런걸로 커버가 가능한지는 잘 모르겠습니다.)

저는 내용을 따라가다 보면 스칼라 코드에 대해 이해하기 위한 시간보다

이런 분석에 이 과정을 왜 하지?를 찾아보고 이해하는데 시간이 더 많이 소요되었습니다.

그리고 책이 유연하다는 느낌을 많이 받았습니다.

스파크 만을 이용해서 예제를 분석하려 하지 않고 부족한 부분은 다른 언어를 이용합니다.

물론 다른 언어에 대한 코드도 포함되어 있습니다만 책에 기제되어 있는 각 코드의 한줄한줄 설명은 없습니다.

만약 해당 언어에 대해 생소하시다면 약간의 거부감을 가질 수도 있습니다.

이 책은 스파크를 처음 접하시는 분들에게 입문용으로는 글쎄요? 입니다.

하지만 스파크를 한번이라도 사용해 봤어 하시는 분들에게는 추천 드립니다.

스파크를 직접 부딪히면서 배워가기에 참 좋은 책입니다.

감사합니다.

아파치 스파크를 활용해 데이터를 분석하는 방법을 다루는 책으로,

다양한 종류의 데이터로 어떻게 추천 시스템을 만들고 예측을 하는지 설명하고 있습니다.

책에 나오는 예제들은 데이터를 가공하고 처리하고 분석하는 과정을 자세히 설명하고 있어서

소장해 놓았다가 실제로 데이터 처리를 할 때 꺼내보면 도움이 많이 될 것 같습니다.

이 책은 다른 데이터마이닝 책에서 기본적으로 다루는 개념들을 쉬운 말로 풀어서 설명합니다.

랜덤 포레스트, K-평균 군집화, TF-IDF 같이 이론으로만 접했던 내용들을

실제로 스파크에서 코딩하며 실습해 볼 수 있어서 유용합니다.

다만 스칼라 문법을 모르는 초보자가 이 책에 있는 코드를 이해하기에는 조금 어려운 감이 있습니다.

스칼라 문법이나 스파크 사용법은 따로 찾아보면서 실습을 해보면 좋을 것 같습니다.