메뉴 바로가기 검색 및 카테고리 바로가기 본문 바로가기

한빛출판네트워크

파이썬으로 웹 크롤러 만들기

초간단 나만의 웹 크롤러로 원하는 데이터를 가져오는 방법

한빛미디어

번역서

판매중

  • 저자 : 라이언 미첼
  • 번역 : 한선용
  • 출간 : 2016-12-01
  • 페이지 : 284 쪽
  • ISBN : 9788968484698
  • 물류코드 :2469
초급 초중급 중급 중고급 고급
4.7점 (15명)
좋아요 : 5

웹 어디서든 내가 원하는 데이터를 쏙쏙쏙 

 

웹에 존재한다면 그것이 어떤 형태이든 데이터로 추출할 수 있다. 필요한 무기는 이 책과 파이썬뿐. BeautifulSoup, 셀레니움, 테서랙트 등 강력한 파이썬 라이브러리 사용법과 함께 API, 인증, 이미지 및 텍스트 인식, 로그인 처리 등 웹 크롤링의 기초부터 고급 기법까지 종합적으로 다루는 유일한 책. 실제 업무와 생활에 적용할 수 있는 예제를 통해 일상의 데이터 분석가가 될 수 있다.

 

detail.jpg

 

저자

라이언 미첼

웹 크롤링, 보안, 데이터 과학에 관심이 많은 개발자. 현재 글로벌 펀드사 헤지서브(HedgeServ)에서 시니어 개발자로 근무하고 있습니다. 프랭클린 W. 올린 공과대학교를 졸업했고 하버드 대학교에서 소프트웨어 엔지니어링 석사 과정을 밟았습니다. 어바인(Abine)에서 웹 크롤러와 봇을 만들었고, 링크드라이브(LinkeDrive)에서는 API 및 데이터 분석 도구를 만들었습니다. 금융업 및 유통업 분야에서 웹 크롤링 프로젝트 컨설팅을 하고 있고, 교육과 강연 활동도 활발하게 펼치고 있습니다. 본서 외 저서로 『Instant Web Scraping with Java』(Packt, 2013)가 있습니다.

역자

한선용

웹 표준과 자바스크립트에 관심이 많은 번역가. 2008년부터 웹 관련 일을 했으며, ‘WCAG 2.0을 위한 일반적 테크닉’ 등의 문서를 번역해 웹에 올렸습니다. 번역서로 『한 권으로 끝내는 Node & Express』(2015), 『자바스크립트를 말하다』(2014), 『데이터 시각화를 위한 데이터 인사이트』(2014), 『모던 웹을 요리하는 초간편 HTML5 Cookbook』(2012), 『Head First jQuery』(2012), 『jQuery Mobile』(2012), 『자바스크립트 성능 최적화』(2011, 이상 한빛미디어), 『자바스크립트 프로그래밍』(2013), 『처음 배우는 jQuery』(2012), 『에릭 마이어의 CSS 노하우』(2011, 이상 인사이트) 등이 있습니다.

CHAPTER 1 첫 번째 웹 스크레이퍼

1.1.연결

1.2.BeautifulSoup 소개

 

CHAPTER 2 고급 HTML 분석

2.1.닭 잡는 데 소 잡는 칼을 쓸 필요는 없습니다

2.2.다시 BeautifulSoup

2.3.정규 표현식

2.4.정규 표현식과 BeautifulSoup

2.5.속성에 접근하기

2.6.람다 표현식

2.7.BeautifulSoup를 넘어

 

CHAPTER 3 크롤링 시작하기

3.1.단일 도메인 내의 이동

3.2.전체 사이트 크롤링

3.3.인터넷 크롤링

3.4.스크래파이를 사용한 크롤링

 

CHAPTER 4 API 사용

4.1.API는 어떻게 동작하는가

4.2.공통 표기법

4.3.응답

4.4.에코 네스트

4.5.트위터

4.6.구글 API

4.7.JSON 파싱

4.8.모든 것을 하나로

4.9.마치며

 

CHAPTER 5 데이터 저장

5.1.미디어 파일

5.2.데이터를 CSV로 저장

5.3.MySQL

5.4.이메일

 

CHAPTER 6 문서 읽기

6.1.문서 인코딩

6.2.텍스트

6.3.CSV

6.4.PDF

6.5.마이크로소프트 워드와 .docx

 

CHAPTER 7 지저분한 데이터 정리하기

7.1.코드로 정리하기

7.2.사후 정리

 

CHAPTER 8 자연어 읽고 쓰기

8.1.데이터 요약

8.2.마르코프 모델

8.3.자연어 툴킷

8.4.추가 자료

 

CHAPTER 9 폼과 로그인 뚫기

9.1.파이썬 requests 라이브러리

9.2.기본적인 폼 전송

9.3.라디오 버튼, 체크박스, 기타 필드

9.4.파일과 이미지 전송

9.5.로그인과 쿠키 처리

9.6.기타 폼 문제

 

CHAPTER 10 자바스크립트 스크레이핑

10.1.자바스크립트에 관한 간단한 소개

10.2.Ajax와 동적 HTML

10.3.리다이렉트 처리

 

CHAPTER 11 이미지 처리와 텍스트 인식

11.1.라이브러리 개관

11.2.형식이 일정한 텍스트 처리

11.3.CAPTCHA 읽기와 테서랙트 훈련

11.4.CAPTCHA 가져오기와 답 보내기

 

CHAPTER 12 스크레이핑 함정 피하기

12.1.스크레이핑의 윤리에 관해

12.2.사람처럼 보이기

12.3.널리 쓰이는 폼 보안 기능

12.4.사람처럼 보이기 위한 체크리스트

 

CHAPTER 13 스크레이퍼로 웹사이트 테스트하기

13.1.테스트 입문

13.2.파이썬 unittest

13.3.셀레니움을 사용한 테스트

13.4.unittest vs 셀레니움

 

CHAPTER 14 원격 스크레이핑

14.1.원격 서버를 쓰는 이유

14.2.토르

14.3.원격 호스팅

14.4.추가 자료

14.5.미래를 향해

 

APPENDIX A 파이썬 훑어보기

A.1.설치와 ‘Hello, World!’

 

APPENDIX B 인터넷 훑어보기

 

APPENDIX C 웹 스크레이핑의 합법성과 윤리

C.1.상표? 저작권? 특허?

C.2.동산 침해

C.3.컴퓨터 사기와 악용에 관한 법률

C.4.robots.txt와 이용 약관

C.5.세 가지 웹 스크레이퍼 사례

 

복잡 다양한 웹에서 우아하게 데이터를 수집하는 방법 A to Z

 

우리는 생활 속의 많은 부분이 인터넷에서 이루어지는 시대에 살고 있습니다. 그 어느 때보다 많은 데이터로 넘쳐나는 웹 세상에서 필요한 데이터를 가져와 분석하는 일의 중요성도 커졌습니다. 인터넷을 활보하며 데이터를 수집하는 프로그램을 웹 크롤러 혹은 웹 스크레이퍼라고 합니다. 웹 크롤러는 데이터 수집을 자동화하므로 비즈니스 의사 결정에 큰 도움이 되고, 웹사이트 스캐너로 활용할 수도 있어 보안 분야에서도 사용됩니다.

웹 크롤링은 인증 같은 웹 기술에 대한 이해는 물론, 데이터 정제, DB 저장 등 여러 기술에 대한 지식이 필요한 분야에 속합니다. 따라서 프로그래밍 스킬을 향상하는 데에 아주 좋은 주제이며, 과거에는 프로그래밍 전문가만이 웹 크롤러를 만들 수 있었습니다. 하지만 파이썬이라는 배우기 쉬운 언어와 쉽게 쓸 수 있는 각종 라이브러리들이 등장하며 이러한 장벽은 무너졌습니다. 기업 사례뿐만 아니라 음원 차트 추출하기, 서울의 기온 데이터 추출하기, 게시판 문서 다운로더 등 주위를 둘러보면 의외로 많은 생활 속 사례를 찾을 수 있습니다.

『파이썬으로 웹 크롤러 만들기』는 웹 크롤링이라는 주제 하나에 집중하는 책입니다. 업무상 웹 크롤러를 만들다 푹 빠진 나머지 회사를 나와서도 계속 웹 크롤러를 만들고 있는 개발자가 썼습니다. 파이썬과 라이브러리를 이용하여 아주 간단한 웹 크롤러를 만드는 것으로 시작해서, HTML, API 등 웹 기술의 기초부터 데이터 정제 및 저장, 자연어 처리, 이미지 및 텍스트 인식 등 고급 기법까지 종합적으로 살펴봅니다.

책의 1부는 파이썬과 함께 BeautifulSoup, 스크래파이 같은 라이브러리를 이용하여 아주 간단하게 웹 크롤러를 만들어보며 시작합니다. 나아가 API를 이용한 수집, 데이터를 MySQL로 저장하는 방법, CSV, PDF, 워드 파일을 분석하는 방법까지 필요에 따라 다양한 라이브러리를 활용하여 웹 크롤러를 구현하는 방법에 집중합니다. 위키백과를 크롤링하며 ‘케빈 베이컨의 여섯 다리’(과연 전 세계 사람은 여섯 다리만 거치면 연결될까요?) 문제를 풀어보는 예제도 있습니다.

2부는 웹 크롤링을 둘러싼 더욱 흥미로운 주제와 기법을 다룹니다. 웹에서 가져온 지저분한 데이터를 정돈하고 정제하는 방법(오픈리파인), 자연어 처리(NLTK), 폼과 로그인 뚫기(requests), 자바스크립트로 만든 동적 페이지 수집하기(셀레니움), 이미지 처리(필로) 및 텍스트 인식(테서랙트), 웹사이트 테스트(unittest), 원격 크롤링(토르) 등 고급 기법과 라이브러리 사용법을 살펴봅니다. 특히 텍스트 인식은 CAPTCHA, 즉 자동 가입 방지 문자를 우회하는 데 유용하며, 크롤링을 막는 방해물을 뚫기 위한 ‘사람처럼 보이기’ 기법은 아예 한 장을 할애해서 자세히 소개합니다.

저자는 웹 크롤링에 푹 빠져 있지만 웹 크롤러를 악용하는 것까지 찬성하는 것은 아닙니다. 부록에서는 웹 크롤링과 관련된 법적, 윤리적 쟁점과 실제 소송 사례 세 가지를 살펴보며 균형 잡힌 시각을 접할 수 있습니다.

오늘날 데이터가 넘쳐나는 웹에서 웹 크롤러로 할 수 있는 일은 무궁무진합니다. 필요한 것은 약간의 파이썬 프로그래밍 능력 하나뿐입니다. 나머지는 이 책에서 배울 수 있습니다. 웹 크롤링을 적용하여 업무를 자동화하고 생활 속에서 유용한 통찰을 찾는 데 이 책이 큰 도움이 되리라 믿습니다. 복잡 다양한 웹 세상에서 우아하게 데이터를 수집하고 싶은, ‘일상의 데이터 분석가’를 꿈꾸는 이들에게 이 책을 권합니다.

 

  • 파이썬으로 웹 크롤러 만들기 책

    최근에 미니 프로젝트로 생각해 둔 것이 있었는데, 매일 뉴스 기사에서 단어를 수집할 필요가 있었다. 그리고 파이썬으로 프로젝트를 해보고 싶은 생각도 있었는데 마침 필요한 것들이 전부 있는 책이 손에 들어왔다. HTML파싱에 필요한 라이브러리부터 문서 포맷 파싱, 자연어처리, 이미지 인식, 유닛 테스트까지 다루지 않는 부분이 없는 엄청난 책이었다. 전문서를 읽으면서 가끔 묘한 느낌이 들 때가 있는데 이 책이 그랬다. 책의 두께로만 봐서는 도저히 각 챕터를 전부 다룰 수 없을 것 같은데 정말 그렇게 하고 있었다. 초보자의 관점에서 본 이야기이고, 어떤 챕터는 한 권의 책으로 심층적으로 다뤄도 모자랄 것이다. 하지만 어떤 노하우나 기술의 ‘힌트’를 적절히 배치해놓은 것을 보고 감탄하지 않을 수 없었다. 그런 점에서 이 책은 웹 프로그래밍을 막 시작한 분들에게 굉장히 매력적인 책일 것이다.

    데이터베이스 테크닉과 모범 사례

    5장에서는 관계형 데이터베이스에서 자료를 저장하는 스키마 설계에 대해 고민하게 하는 한편, 성능적인 면에서 쿼리 응답을 빠르게 하기 위한 인덱싱기술도 설명하고 있다.

    책이 다양한 주제에 대해서 다루고 있다보니 원하는 챕터만 찾아봐야겠다고 다짐했다. 그래서 처음에 6장은 넘어가려고 했다. 그런데 웬걸 텍스트 인코딩에 대해 설명을 하고 있어서 읽다보니 한 챕터 전체를 다 읽게 되었다. 텍스트 인코딩에 대한 개괄적 설명, csv, pdf, docx 포맷에서 데이터를 추출하는 방법이 차례로 나온다. 책을 읽는 순서는 관계가 없지만 초보자는 유용한 내용이 많으니 웬만하면 모두 읽는 것이 좋을 것 같다.

    텍스트 인코딩과 인터넷

    데스크탑으로 맥을 쓰면서 멀웨어나 바이러스와는 많이 멀어졌다고 생각했는데 간과한 부분이 있었다. 위키의 유닉스 계열 서버의 점유율을 보면 가장 낮은 것도 60퍼센트를 넘는다. 크롤링을 잘못하면 저자의 말대로 악성코드를 내 컴퓨터로 초대하는 것이나 다름없다. 방어적 프로그래밍을 일깨워주는 참 좋은 책이다… 그리고 이런 ‘주의’표시가 있는 내용이 챕터 마다 있어서 책을 읽고 많이 배울 수 있었다.

    악의적 스크립트 주의하기

    웹 사이트를 돌아다니면서 법적 이슈가 생길 거라고 예상하는 사람이 없으니, 크롤링을 하는 것도 법적인 이슈가 없을 것이라고 예상했다. 그런 점에서 저자가 윤리적인 이슈 및 법적 이슈가 생길 수 있음을 경고해주고, 실제 사례도 소개해주고 있어서 흥미롭게 읽을 수 있었다.

    스크레이핑의 윤리

    curl 커맨드를 이용해서 HTTP 리퀘스트를 보낼 때 실패하는 사이트들이 있었는데 그 때는 어떤 정보를 통해서 확인하는지 몰랐었다. 이런 노하우를 배우다보니 내가 아직도 웹에 대해서 모르는게 굉장히 많다는 생각이 들었다…

    헤더를 유용하게 사용하는 방법

    코딩 컨벤션에 대해 잠깐 언급하고 리뷰를 마치고자 한다. 이전에는 파이썬을 간단히 로직 테스트 용도로만 사용했었다. 그래서 크게 긴 코드를 작성할 일이 없었다. 파이썬 코딩 컨벤션도 딱히 따르는 것이 없었는데 저자의 코드를 따라서 실습하다보니 홑따옴표와 쌍따옴표를 혼용해서 쓰고 있었다. 책에 파이썬 코딩 컨벤션에 대한 언급은 없기 때문에 스택오버플로우에서 관련된 내용을 찾아봤다. 기본적으로 이 논의는 가치가 없는 것(…)으로 보이지만, 참고할 만한 내용은 있었다. 펄 언어에서 보간(Interpolation)가능한 문자열과 보간하지 않는 문자열을 구분하는 문법이 있고, 그 전통이 펄 프로그래머들로부터 파이썬까지 따라왔다는 것, 혹은 (사람이 이해하는)자연어는 쌍따옴표로, 기계가 이해하는 언어는 홑따옴표로 쓴다는 규칙이 있었다. 어떤 사람은 영어의 문장부호 규칙에서 그것이 따라왔다고 보는 사람도 있었다. 쓰는 사람 마음이지만 오픈소스 프로젝트에 참여하는 것을 고려한다면 참고할 수 있을 것이다.

    책을 읽으면서 파이썬 코드의 가독성이 정말 좋다는 것, 그리고 필요하다고 생각하는 라이브러리가 대부분 있다는 것을 느꼈다. 최근에 인기가 많은 Node.js도 라이브러리가 많이 구현돼있지만 데이터 과학쪽은 아직 파이썬의 환경이 더 잘 되있고, 초보자가 접근하기도 더 수월하다고 생각한다. 책이 얇고 다양한 주제에 대해 다루고 있기 때문에 심층적인 내용을 다룰 수 없는 것은 어쩔 수 없다. 하지만 흥미를 일으키기에 충분한 분량의 내용이 각 챕터별로 들어있다고 생각한다. 리뷰를 읽으실 초보자분들이 이 책을 통해 즐거운 코딩경험을 하시길 기대한다.

  • 이 책은 파이썬으로 웹 크롤링을 시작하기에 안성맞춤입니다.

     

    이 책을 보기 전에 웹에서 데이터를 긁어모으는 '웹 크롤링'이라는 단어는 들어서 알고 있었고, 

    파이썬에서는 BeautifulSoup 같은 여러 라이브러리들을 이용하면 쉽게 웹 크롤링을 할 수 있다는 것도 들어서 알고 있었지만,

    정작 웹 크롤링이라는 것을 시작하려고 보면 막막함만 가득했습니다. 

     

    인터넷 블로그 등의 튜토리얼을 따라 해보아도 결과가 제대로 나오지 않아서

    웹 크롤링은 둘째치고라도 파이썬이라는 언어 자체에 대한 벽까지 느껴졌습니다.

    그런데 이 책은 파이썬과 BeautifulSoup 같은 라이브러리를 설치하고 virtualenv로 가상 환경 구성하는 방법부터 시작해서 

    파이썬의 여러 웹 크롤링 라이브러리들을 사용해서 크롤링을 하는 방법 절차를 군더더기없이 설명하고 있어서 따라하기 쉬웠습니다.

     

    그리고 웹 크롤링을 할 때 어떤 절차를 따라 해야 하는지, 성가신 문제들을 해결하는 노하우 같은 것들을 이 책에서 찾을 수 있었습니다.

    웹 크롤링을 하는 과정에서 정규표현식을 사용하면 좋다고 설명한 부분이 있었는데, 

    그 부분의 설명을 통해서 정규표현식에 대해서도 간략히 살펴볼 수 있었고 

    실습을 통해 정규표현식 패턴을 파이썬에서 어떻게 활용하는지 파악할 수 있었습니다.

    한마디로 책 안에 필요하고 도움이 되는 내용만 알차게 잘 구성되어 있습니다.

     

    조금 아쉬웠던 점은 파이썬 개발 환경 구성에 대해서 부록 등에 넣었으면 좋았을 것이라는 점입니다.

    파이썬2와 파이썬3이 다르고, BeautifulSoup도 이 책에서는 파이썬3을 기준으로 설명하고 있어서 

    똑같은 코드를 쳐도 안 되는 경우가 많았습니다.

    pip나 virtualenv 같은 경우 실수로 파이썬2에 설치된 패키지로 실습을 따라하다가 오류가 날 가능성이 많이 있는 것 같습니다.

    부록에 이런 내용을 설명하면 좋을 것 같은 생각이 듭니다.

     

    이 책을 읽으면서 파이썬으로 웹에서 데이터를 어떤 식으로 모으는지 알 수 있었고

    소장 가치가 큰 책이라고 생각합니다.

    파이썬으로 웹 크롤러를 만들고 싶은 분들에게 꼭 추천드립니다.

     

     

     

  • 웹 크롤링이 무엇인지 궁금하게 만든 도서!

     

    나는 보통 도서를 처음 접하게 되면 가장 먼저 뒷표지를 본다.

    뒷표지를 보면 이 도서의 핵심 요약이 표현되어 있는 경우가 대부분이기 때문이다.

     

    "파이썬으로 웹 크롤러 만들기(Web Scraping with Python)"도서를 서점에 가서 집어 들고 뒷표지를 보았다.

    뒷표지의 내용을 보고 바로 이 도서를 선택하게 되었다. 

    <복잡 다양한 웹에서 우아하게 데이터 수집하기> 참으로 멋진 표현이다.

     

    나에게 웹 크롤링에 대한 관심을 불러일으킨 책으로써 무언가 이 도서를 통하여 할 수 있을 것 만 같았다.

     

    이 도서를 통하여 얻을 수 있었던 내용들은 아래와 같다.

     

    1. 웹 크롤링이 무엇이며 왜 써야 하는지를 알 수 있었다.

    2. 크롤링의 기본 동작 과정을 알 수 있었다.

    3. 기초부터 심화까지 조금씩 난이도를 높혀가면서 크롤링을 해볼 수 있었다.

     

    챕터5 데이터 저장 부분중 파일저장 부분은 향후에도 많이 사용할 수 있는 부분으로 생각되었다.

    다만 본문에서도 경고하고 있듯이 바이러스나 멀웨어등이 포함된 파일들이 존재할 수 있으니 각별히 조심하라고 가이드하고 있다.

    또한 파이썬으로 메일 전송할 수 있다는 부분도 흥미로웠다. 조금만 응용하면 뭔가 멋진 툴이 나올 것 같은 예감이 든다.

     

    챕터6의 문서 읽기 부분은 꼭 웹페이지의 내용뿐만 아니라 PDF나 DOCX같은 파일들에서도 파이썬을 이용하여 내용을 추출할 수 있음을 보여준다.

    물론 추가적인 파이썬 라이브러리를 설치하여 사용해야 하지만 정말 많은 일들을 할 수 있음을 알 수 있다.

     

    그밖에 "고급 스크레이핑"파트에 가면 더 심화된 예제들을 볼 수 있다.

    이 책을 읽고난 후 느낀점이라 하면 정말 다양한 라이브러리들이 존재하여  파이썬으로 못하는 것을 없겠다? 라는 점이다. 

     

    다시금 <복잡 다양한 웹에서 우아하게 데이터 수집하기> 이 말이 떠올랐다.

    수 많은 라이브러리들을 사용하여 우아하게 데이터 수집하는 그날까지 아직 봐야할게 많은 것 같다!!

     

  • 파이썬으로 웹크롤링에 입문하고 싶으신 분들에게 매우 친절한 책입니다.

     

    친절한 예제위주로 쓰여져 있으며 따라치고 글을 읽다보면 어느정도 기본수준의 크롤링은 하고 있는 스스로를 발견할수 있을 것입니다. 회사일로 특정 홈페이지 과금페이지를 매일 일정시간마다 자동으로 스크린샷 찍는 기능을 응용하여 만들었는데 책에서 배운내용과 스크린샷 찍는 기능 관련 약간의 구글링과 함께 손쉽게 만들수 있었습니다. 자바스크립트 크롤링이나 기타 크롤링에 필요한 지식들을 책에서 가볍게 다루어 주기때문에 부담없이 읽을수 있습니다. 단순 크롤링부터 CAPTCHA PDF WORD 파일을 읽는 방법까지 여기서 배운내용으로 많은 응용이 가능하리라 생각합니다.

     

    마지막에 저작권에 대해 다루어주는데 저작권이 점점 중요해지는 시기인 만큼 기술적 내용이 아니라고 넘기지 말고 한번씩 읽기를 권장합니다.

     

    결론:

    크롤링에 대해 시작해보고 싶으신분들에게 묻지도 않고 따지지도 않고 추천하겠습니다^^

    이미 위에 언급한 내용을 해본분들에게는 더 상위의 토픽을 가진책을 읽는것을 추천하겠습니다.

     

     

  •  

    데이터를 가공하면 정보가 된다.

     

    이 책은 정보가 만들어지기 위해  선 수행되어야할 작업인,

    인터넷에 뿌려져있는 데이터를 끌어모으는 작업을 수행하는 '크롤러'를

    파이썬언어로 만들기위한 가이드 역할을 한다.

     

    뷰티풀스프를 응용하여 간단하게 데이터를 긁어오는 실습과 더불어

    긁어진 데이터를 json, csv등의 범용성 높은 포맷으로 변환하기위한 라이브러리가 소개된다.

     

    위키피디아같은 공개된 페이지부터, 로그인이 필요하거나 캡챠테스트를 뚫어야만 볼 수 있는 페이지에 올라와있는

    데이터를 긁어모으기 위한 라이브러리도 소개해준다.(권한에 따른 수집방법 변경)


    긁어모아진 데이터를 말끔하게 정리하는 라이브러리도 소개된다.

     

    사실 구글링을 조금만 해보면 구현할 때 필요한 라이브러리나 API를 금방 찾을 수 있다.

     

    그런데도 불구하고 이런 책이 존재하는 이유는 많은 라이브러리가 영어로 소개되어있기 때문에

    한글 레퍼런스로 활용될 수 있다는 이점이 아닐까?

     

    책에서 아쉬웠던 점은 한글 형태소 분석이 아닌 영어 형태소분석 예제를 그대로 사용한 점 하나가 있다.

    일어 번역서의 경우 대다수의 번역서가 일어 형태소 분석 예제 대신에 (역자의 노력이 들어가긴 하지만)

    한글 형태소 분석 예제로 바꿔서 출판하기 때문에 이부분이 아쉬움으로 남는다.

     

    시각화와 같은 정보화 과정이 더 들어갔다면 좀 더 완성도 있는 프로젝트가 되었겠다는 아쉬움 역시 남는다.

     

     

     

  • 이 도서는 파이썬을 기초 수준으로 알고 있는 사람에게 웹 크롤러(Web Crawler)를 만드는 방법을 단계별로 친절하게 알려준다.

    1. 왜 읽어야 하나요?

    수년 전부터 오픈 웹, 오픈 API 등의 용어가 범람하고 있다. 우리가 알고 있는 각종 포털 및 SNS 사이트부터 공공기관까지 대부분의 웹 서비스 업체는 자신들이 생산하는 데이터를 활용할 수 있는 방법을 제공한다.

    참고: 대한민국 정부는 공공기관의 데이터를 민간에게 공개하는 것을 골자로 하는 정부 3.0 이라는 정책하에 공공데이터포털(www.data.go.kr)을 운영하고 있음

    그러나 대부분의 경우 오픈 API는 사용이 제한적이거나 우리가 원하는 기능을 제공하지 않는 경우가 많아 해당 사이트에서 제공하는 데이터를 말랑말랑하게 다루기에는 많은 어려움이 있다. 책에서는 이러한 이유를 아래와 같이 소개하고 있다.

    • 사이트에서 API를 제공하지 않거나 제공할 능력이 없음
    • 사이트에서 제공하는 API사용에 제한이 있거나 제공하는 데이터 타입이 원하는 형식이 아닐 수 있음

    만약 정보의 바다라고 하는 인터넷에서 본인 혹은 기업이 원하는 데이터를 자동으로 수집하고 가공하여 가치를 창조하는 일을 하고 싶다면 이 책은 큰 도움이 될 것이다.

    2. 이 책의 장∙단점은 무엇인가요?

    우선 이 책은 매우 친절합니다. 최근에 발간된 일부 컴퓨터 서적의 경우 책에서 나오는 각종 실습을 따라하는 데 필요한 환경설정을 다루지 않는 경우가 있었습니다. 그러나 이 책은 파이썬부터 BeautifulSoup 이라는 웹 문서 Parser 설치까지 안내를 합니다. 그리고 부록의 마지막 장에서는 웹 스크래이핑(=웹 크롤러)의 합법성과 윤리를 통해 혹시라도 발생할 수 있는 각종 법적 분쟁에 휘말리지 않도록 안내를 합니다. 그러나 무엇보다도  이 책의 가장 큰 장점은 단계별로 내용을 풀어가는 친절한 설명입니다. 또한, 심화내용을 배우기 원하는 독자를 위해 필요한 경우 레퍼런스를 제공합니다.

    단점은 없습니다. 신경쓰이는 번역이나 오타도 발견하지 못했습니다. 최근에 읽었던 전문서적 중 가장 훌륭한 책이었습니다.

    3. 총평

    이 책은 검색 엔진을 이루는 구성요소 중 핵심 중 하나인 웹 크롤러(Web Crawler)를 만드는 방법을 매우 친절하게 소개합니다. 만약 웹에서 생산되는 다양한 데이터를 수집 및 가공하여 가치를 창조하는 어떤 서비스를 만들고 싶다면 이 책은 훌륭한 시작점이 될 수 있습니다. 웹 크롤러에 관심이 있는 분이라면 후회없는 선택이 될 수 있습니다.

  •  

    전 세계가 네트워크를 통해 하나로 연결된 시대이다. 우리 삶도 스마트폰을 통해 온라인과 오프라인을 분명히 나눌 수 없을 정도로 깊이 엮여 있다. 그래서 사람들의 생활과 관심사가 그대로 드러나는 웹은 가공되지 않은 수많은 정보의 보고이다.

     

    그런데 이 웹에서 특정 목적에 적합한 정보를 대규모로 수집하는 것은 사람의 손으로는 하기 힘든 일이다. 그래서 웹에서 정보를 수집해주는 기능을 전문적으로 하는 프로그램이 존재한다. 이 프로그램은 흔히 봇이라는 이름으로도 불리는데, 이 봇을 만들어 데이터를 모아서 DB에 저장하는 일이 바로 웹 스크레이핑이다. 더 정확히는, 웹 스크레이핑은 특정 프로그램이 웹 서버에 쿼리를 보내서 HTML, XML, 이미지 등 고유 형태의 응답을 받아서 이를 파싱하고 저장해서 정보를 추출하는 작업을 의미한다.

     

    웹이 정보의 보고인 만큼, 그 정보를 수집하는 것도 다양한 분야의 기술이 필요하다. 그래서 웹 스크레이핑은 데이터베이스, 웹 서버, HTTP, HTML, XML, 인터넷 보안, 이미지 처리, 데이터 과학 등 다양한 주제를 설명해야 한다. 이 책의 장점은 필요한 주제마다 필요한 기술들을 아주 기초부터 핵심만 소개해주는 설명에 있다. 파이썬 초보자도 기초 문법만 떼고 온다면 진행이 그리 어렵지 않을만큼 짧고 간결하게 구성되어 부담도 크지 않다. 그래서 경력이 쌓인 개발자뿐만 아니라, 파이썬 프로그래밍 입문서를 막 마친 대학생들도 즐겁게 시도해볼 수 있는 책이다. 무엇보다도 IT도서답지 않은 얇은 두께를 자랑하며 책장도 휙휙 잘 넘어간다. 게다가 문체가 상당히 따뜻한 느낌이다. 이런 부드러운 문장이 원저자의 공인지 아니면 역자의 공인지 알 수는 없지만, 책을 쉽게 느껴지게 하는 데 일조한다.

     

    빅데이터, 기계학습, 딥러닝, 인공 신경망 등이 대세 키워드인 요즈음, 웹 스크레이핑은 개발자들 뿐만 아니라, 일반인들도 매우 흥미로워하는 분야이다. 마침 파이썬은 초보자가 입문하기 쉬운 언어이므로, 이 책으로 입문하는 웹 스크레이핑은 자신의 비즈니스를 더 효과적으로 만들고 생산성을 향상하고 싶은 사람은 누구나 참여해볼 만한 주제이다.

     

    사실 이 리뷰를 작성하고 있을 때 건너편에 앉아있던 개발자가 책 제목을 흘끗 보고는 '이게 책 한 권을 낼만큼의 주제가 돼요?' 라고 물었다. 이 책을 덮은 지금, 자신 있게 '그렇다. 꼭 한 번 읽어보실 만 하다.'라고 답할 수 있을 것 같다.

     

  • 파이썬으로 웹 크롤러 만들기

     

     - 초간단 나만의 웹 크롤러로 

     

     원하는 데이터를 가져오는 방법

     

     

    웹 크롤러를 만든다는 제목의 이 책은 말 그대로 

     

    파이썬으로 웹 크롤러를 제작하는 방법을 알려주고 있습니다.

     

    웹 크롤러가 뭔지도 모르는 사람이지만, 프로그래밍에 관심있는 

     

    사람이나, 웹 크롤러가 뭔지는 들어봤지만, 실제로 만들어 본적은

     

    없는 사람들에게 크롤러에 대한 구조나 정보등을 알 수 있는 

     

    입문서로서 좋은 역할을 할 수 있는 책이라는 것이 

     

    제가 읽은 느낌입니다. 

     

     

    처음 받아봤을때의 느낌은 상당히 책이 얇다는 점이었습니다.

     

    300쪽도 되지 않는 분량에 크기도 그다지 큰 편이 아니어서인지

     

    분량의 부담은 크지 않겠다는 생각이 들었습니다. 

     

    다만, 혹시 내용이 너무 어렵지 않을까라는 생각이 들었는데요

     

    이전에 봤던 기술서적들의 대부분은 분량이 적으면

     

    그 내용이 어렵거나, 너무 간략하게 서술되어 있는 경우를 

     

    많이 봐왔기 때문에, 약간의 걱정도 없지 않았습니다. 

     

     

    그러나 이 책은 적은 분량으로서의 장점을 최대한 살리고 있다는 

     

    생각이 듭니다. 

     

    초보자 혹은 크롤링의 입문자 입장에서 볼 때, 

     

    필요한 사항들을 알 수 있는

     

    내용들이 적절하게 나와있어서, 

     

    너무 어렵거나 복잡한 군더더기 없다는 느낌을 받았습니다.

     

     

    물론 대개의 입문서나 개론서가 그러하듯 

     

    이 책만으로 크롤링의 모든 것, 혹은 상업적인 수준의 어떤 것을

     

    기대하는 것은 좀 이른감이 있습니다. 이에 대한 내용은 책에도 

     

    나와있는데요. 크롤링 작업이나 프로그램의 구조나 동작 등에 

     

    대한 큰 흐름과 그에 대한 고려 사항들을 확인해 보고 

     

    짧고 명확한 파이썬 코드들을 통해 실습해 볼 수 있다는 

     

    점에서 맘에 들었습니다. 

     

     

    개인적으로 부록에 나와있던 

     

    법률적인 사항와 윤리적인 사항에 

     

    대한 내용들도 좋았습니다. 관심은 있지만, 

     

    포털 사이트의 묻고 답하기가 아니라면, 

     

    어딘가에 물어보기도 애미했던 것들이었는데요

     

     

    크롤링이라는 작업의 입문서로서 저자의 배려를 느낄 수 

     

    있었던 부분이라는 생각이 듭니다. 

     

     

    웹 크롤링에 대한 궁금증을 가진 분들이나

     

    파이썬의 실용적인 사용법이 궁금한 분들에게 

     

    도움이 되리라 생각합니다. 

     

  • 이 책은 크롤링을 체계적으로 쉽게 알려줍니다. 크롤링 입문서로 아주 괜찮은 책입니다.

     

    이 책의 틀을 간단히 살펴보자면

    1. 웹페이지 주소에서 얻을 수 있는 정보들이 이러한 것들이 있다. (간략하게 설명)

    2. 이런건 어떻게 파이썬으로 긁어올 수 있을까?

    3. 주의할 점은?

    이러한 틀로 파이썬 크롤링을 보여주고 있습니다.

     

    1번 단계에서 알려주는 내용은 각 챕터별로 정해져 있는 제목들 입니다.

    크롤링을 하고자 하는 페이지에서 필요한 부분이 무엇인지 목표를 정하는 부분입니다.

    책에서 복잡하게 설명 안합니다. 부담없이 간단하게 설명하고 있어요. 

    실전에 사용해야 하시는 분들에게는 부족한 내용일 수도 있는데 입문자들에게는 충분한 내용이 아닐까 생각이 듭니다.

     

    2번 단계에서는 1번 단계에서 목표로 한 부분들을 파이썬 코드를 이용해 크롤링 하는 방법을 알려줍니다.

    이 방법이 너무 간단 명료합니다. 너무나 심플하기 때문에 이 코드를 바탕으로 공부해 가기에는 최적의 코드가 아닌가 생각이 듭니다.

     

    이러한 코드의 부족한 부분과 주의할 점에 대해서는 필자가 책 중간중간에 부연 설명을 하고 있습니다. 

    부연설명을 통해 이 코드에서 "주의해야 할 점" 혹은 "참고사항" 등의 말해주고 공부 방향을 알려주고 있습니다.

    이 부연설명 부분을 좀 더 공부해보면 좋은 결과가 있지 않을까 생각이 듭니다.

     

    이 책은 크롤링의 모든것을 알려준다기 보다는 

    크롤링의 공부 방향을 알려준다고 생각하고 참고하면 좋을 것 같습니다. 

    분명히 실전에 바로 사용하기에는 부족한 면이 있고 책에서도 언급을 하고 있습니다.

    크롤링을 해보고 싶은데 입문서를 찾고있는 분에게 강력히 추천합니다.

    책이 얇고 따라해 보기에 부담이 없습니다.

     

    감사합니다.

  • 이전부터 파이썬으로 크롤링 작업을 하긴 해왔었다.

    하지만 그러면서도 아쉬움들은 항상 있었는데, 이 책을 읽으며 이러한 아쉬움들을 

    해결할 실마리와 정보를 많이 얻었다.

     

    크롤링이 항상 필요한 건 아니었어서 수집을 하고 엑셀파일로 저장을 해왔었다.

    하지만 DB에 계속 저장해두고 한번 접속한 웹사이트는 건너뛴다든가, 중복된 내용은

    긁지 않는다든가 하는 테크닉을 물론 다룬다.

     

    깊이 우선 탐색이나, 너비 우선 탐색 알고리즘을 이용한 크롤링 테크닉도 소개하면서

    구글의 스파이더 같은 크롤링봇을 제작할 수 있는 정보를 소개한다.

     

    자연어 처리와 이미지 처리를 다루고 브라우저 제어 및 크롤링 윤리 들도 다루는 면에서

    아주 실용적이고 효율적인 정보를 얻어 매우매우 기쁘다.

     

    분량은 콤팩트하지만 다루는 내용은 매우 유용하며 핵심적이라 

    파이썬으로 웹크롤링을 하고자 하는 사람들에겐

    "아무것도 묻지도 않고 따지지 않고 이 책을 봐." 라고 할겁니다.

     

     

  • 파이썬으로 웹 크롤러 만들기

     

    와, 이책은 정말 술술 읽힌다. 신기하다

     

     

    요새 내가 관심있던 것이 크롤링 하여 정보를 쌓는것과

    그 정보들을 이용하여 챗봇이나, 정보 푸시 또는 서비스 상에 유저에게 여러 정보를 큐레이팅하는 것이었다.

     

    요즘 하고있는 프로젝트에 대한 내용이어서 인지

    책의 구성이 알차게 쓰여져 있어서 인지 몰라도 공감도 잘 되고 술술 읽혔다.

     

    크롤링이 어떠한 것인지는 물론 어떠한 원리로 크롤링을 하는 것인지 역시 잘 설명하고 있는데,  여기서는 BeautifulSoap을 가지고 크롤링을 진행한다. (그 유명한 녀석)

     

    또한 단순히 해당 모듈의 사용법을 설명하는 것이 아니라

    크롤링 후에 필요한 정규식으로 처리 라든가, 가져온 Document의 탐색, 탐색한 문서 속 정보를 가공, 그리고 저장. 게다가 저장 된 내용을 양질의 데이터로 만들 수 있는  n-gram과 같은 자연어 처리 그리고 이미지에서 텍스트를 추출하는 OCR까지...

     

    얇은 책에 담긴 내용들이 모두 알차서 놀랐다.

     

    물론 책 자체가 얇은 만큼 각 부분 부분들에 대한 심화과정과 같은 깊은 설명이나 예제가 부족한 부분도 있었다.

     

    그러나 이 책은 크롤링의 전체적인 플로우와 기본 설정 및 사용법, 그리고 간단한 실습까지 완벽했던 것 같다.

    이것들을 가지고 어떻게 응용하느냐는 독자의 몫이고 그 결정에 대한 방향을 위해 필요한 심화과정들 역시 독자의 몫인 것 같다.

     

    이 책을 읽으면서 그동안 만들던 것의 질이 더 좋아졌고,

    그 프로젝트 이외에도 여러 아이디어가 생각나서 아주 기분이 좋았다.

     

    나와같이 이쪽 분야에 대해 관심있는 사람들이 있다면 주저없이 꼭 읽어보라고 권하고 싶다.

     

     

     

    크롤링에 관심이 있는 개발자

    크롤링이 무엇인지 잘 모르지만 알아보고 싶은 개발자

     

    권하기 힘든 대상

    이미 위의 내용들을 어느정도 해본 개발자

     

  • 솔직히 유사한 책들(크롤링만은 다루지 않고 한 챕터로 존재하는 경우도 포함해서)이 너무 많아서 크게 기대는 하지 않았습니다. 그런데 평점 5개는 잘 주지 않는데 (정확히는 4.7?) 기대보다 책이 너무 좋아서 평점을 높게 주게되었습니다. 

    책이 얇아서 처음엔 beautifulSoup 사용법 위주로 설명하는 것으로 생각했는데 해당 부분은 생각보다 길지 않고 실전에 적용하는 사례를 많이 보여줬습니다. 그리고 단순히 소프트웨어 사용법을 알려주는 것이 아니라 은근 꿀팁들(크롤러가 아닌 사람인척하기, 윤리 법적인 문제 등 경험자만 알 수 있는 내용들)을 공유하고 있어서 많은 도움이 되었습니다.

    보통 api를 이용하거나 정식으로 라이센스 계약을 하고 끌어오는 케이스가 많아서 크롤링에 대한 경험은 많지 않은데 이번 기회에 의외로 많은것을 배우게 되었습니다. 대신 책이 얇다 보니 유명한 다른 오픈소스들이나(뉴스 크롤링같은) 디테일한 내용이 아주 많지는 않습니다. 그래도 순서대로 따라하면 전체 프로세스를 완벽히 커버하고 있기 때문에 괜찮은 책으로 보입니다.

    난이도는 약간 애매한데 아주 초급자라고 하기에는 약간 어려울 수도 있고 고급사용자가 보기엔 책의 두께 한계상 애매하긴 합니다. 그래서 어느정도 프로그래밍이나 관련 내용을 학습하고 이 책을 보면 더 도움이 될 수도 있습니다. (초보자도 쉽게 따라할 수 있게 만들었지만 제가 처음 경험해본다면 은근히 어려움이 있을듯 합니다.) 그리고 폼과 로그인 뚫기, 이미지 처리 등 실무를 경험해보지 않은 사람들이 보았을때 좋은 내용들이 많이 있습니다.

    아직 하나하나 따라해보지는 않았는데 한번 이 책을 전체 실습해보는 시간을 가져봐야 겠습니다.

  • 벌써 2016년 마지막 미션이다.

     

    이건 의무는 아니었고 신청자만 원해서 하는 것이었지만, 주저 없이 신청하게 되었다.

     

    아마 나 말고도 다들 이책을 많이 하는 듯 하다.

     

    파이썬으로 웹 크롤러 만들기
    국내도서
    저자 : 라이언 미첼(Ryan Mitchell) / 한선용역
    출판 : 한빛미디어 2016.12.01
    상세보기

     

    워낙 주제가 흥미롭다 보니 책 받은 인증이 상당수가 이 책이었다.

     

    아마 웹크롤링이라는 주제 자체에 흥미를 가진 분들이 많을 것이라 생각이 된다.

     

    책을 처음 받고서 의외라고 생각했던 부분은, 우선 생각했던것보다 두께가 얇았다는 점이다.

     

    실제 페이지 수가 인덱스를 포함해도 300페이지가 안되기 때문에 편한 마음으로 볼수 있었다.

     

    크롤링(Crawling) 혹은 스크래핑(scraping) 이라는 것은 웹 페이지에 데이터를 추출하는 행위를 말한다.

     

    https://namu.wiki/w/%ED%81%AC%EB%A1%A4%EB%A7%81

     

    실제 파이썬에서 크롤링 하는 방법은

     

    scrapy 프레임워크를 사용하거나 beautifulsoup 라이브러리를 사용하는 방법이 있는데,

     

    이책에서는 두번쨰 방법인 beautifulsoup 를 사용해서 설명하고 있다.

     

     

    우선 scrapy를 잠깐 언급을 하자면, 파서를 지원하는 것이 특징인 오픈소스 프레임워크이다.

     

    공식 웹사이트 : https://scrapy.org/

     

    * 소스 https://github.com/scrapy/scrapy

    * 문서 http://doc.scrapy.org/en/latest/

     

    예전 학교 다닐 시절에 데이터 크롤링이 필요해서 써봤던 wget-curl 도 있다.

    http://opensourcepack.blogspot.kr/p/wget-and-curl.html

     

    (아직도 있어서 다행...^^;;)

     

    그리고 책에서 나온데로 beautifulsoup은 파이썬 기본 라이브러리가 아니므로 별도로 설치를 해주어야한다.

     

    https://www.crummy.com/software/BeautifulSoup/

     

    책에서는 pip 로 설치하는 방법이 있으니 따라하면 쉽게 설치할 수 있다.

     

    이 책은 초보자들도 쉽게 간단한 크롤러를 만들 수 있도록 잘 설명되어있다.

     

    당연한 DB에 대한 부분이나, 로그인, 폼, CAPTCHA 등에 부분도 잘 나와있다.

     

    그리고 내가 생각하기에 가장 중요하다는 저작권에 대한 부분도 일부 다뤄주고 있어서 그부분이 아주 좋았다.

     

    실제 인터넷에 엄청나게 많은 데이터들이 있지만, 뉴스 스크레이핑 등은 

     

    각 뉴스 언론사 마다의 저작권이므로 개별로 확인해야할 필요가 있는데,

     

    그런 부분도 놓치지 않고 다뤄준 점에서 높은 점수를 주고 싶다.

  • 원서에서는 스크래이핑(scraping)이라는 표현을 쓰고 있지만, 번역자 분께서는 아무래도 한국에서 더 널리 쓰이고 있는 크롤러(crawler)라는 단어를 채택하신 것 같다. 결국 핵심은 웹 페이지를 탐색하여 가져와서 자동으로 데이터를 추출해 내는 행위를 뜻한다. 사실 예전에 웹 크롤러를 작성해본 적이 있기 때문에 이 책의 내용이 별로 대단한건 없을거라고 생각했는데 큰 오산이었다. 내가 사용했던 방법은 정말로 초보자 수준이었고, 함수들을 제대로 몰라서 노가다를 뛴 측면이 많았다. 이 책에서는 다양한 API와 정규표현식을 사용하여 보다 Elegance한 방법을 제시하고 있다.

     

    저자는 단순히 프로그램 개발만 잘하는 것이 아니라 데이터베이스 관리, 자연어 처리, 성능 튜닝, 보안 등등 다양한 관점을 겸비한 전문가로 보인다. 특히 온라인의 폼(Form)과 로그인 인증을 우회하거나 CAPTCHA를 뚫는 것은 정보보안적 관점에서도 중요한 위협(또는 방어)가 될 수 있기 때문에 저자는 이러한 취약점에 대해서도 상세히 설명하고 있다. 이는 자연스럽게 법적인 문제를 야기할수도 있는데, 사실 크롤링 행위 자체에 대해서는 불법이 아니라고 하지만 이것이 과하여 상대방의 웹사이트를 다운시킬 정도가 된다면 이것은 윤리적으로 모호한 상황이 아니다, 그것은 명백히 잘못된 일이므로 항상 주의를 기울여야 한다. 더불어서, 상대의 컴퓨터 뿐만 아니라 나의 컴퓨터도 지키기 위해서는 성능 이슈를 잘 관리하여야 한다고 지적한다. 이를 위해서는 적절한 쓰레드 처리로 부하를 분산하는 등의 방법이 요구된다(270page참조). unittest, 셀레니움 등을 사용하여 테스팅을 해보는 것도 좋다.

     

    결론적으로 이 책을 요약하자면, 인터넷이라는 거대한 밀림 속에서, 내가 원하는 자료를 찾기 위해 온갖 이미지를 다운로드하고 그 중 글자를 추출하고 가공하여 데이터베이스에 저장하는 등 일련의 과정을 거쳐서 다양한 문제들을 해결할 수있다는 것을 말한다. 물론 숙련을 위해서는 많은 연습과 시간이 필요할 것이다. 그렇지만 이 책 덕분에 참 다양한 인사이트를 얻었다. 내가 관심있는 주제를 하나 선정하여 크롤러 프로젝트를 한번 수행해봐야 겠다.

  • 파이썬으로 웹 크롤러 만들기 (Web Scraping with Python)

    저자 : 라이언 미첼
    역자 : 한선용
    출판사 : 한빛미디어

    책정보 : http://www.hanbit.co.kr/media/books/book_view.html?p_code=B7159663510&tid=misprint


    개요

    대상 독자

    파이썬 초급자 이면서 웹 크롤링에 관심이 있는 사람
    굳이 파이썬을 모르는 상태라도, 웹 크롤링의 전반적인 내용을 알 수 있을 듯

    출판사 정보에는 책의 난이도가 "초급" 이라고 되어있지만
    주관적인 생각으로는 좀 애매하기도 함
    (뭐 그건 내가 초심자라서 그렇다고 해두자)


    특징

    책장을 넘기기 전

    이 책은 파이썬을 이용해 크롤러를 만들어서 데이터를 가져올 수 있도록 하는 입문 연습서 라고 생각했었다.
    처음 나오는 "옮긴이의 말"에도 나와 비슷한 생각을 했다고 기술 되어 있다.

    얇은 책 이지만 다루는 범위가 생각보다 상당히 많았다.

    • 문서 읽기
    • 자연어 통계 분석
    • captcha ;;;;;
    • 그리고 법률 관련

    참... 케븐베이컨의 여섯다리를 여기서 보게 될 줄도 몰랐다!!!


    파이썬 측면의 특징

    • 파이썬 가상화 구축
      (강제하지 않는다는 부연설명이 있긴 하다.)
      프로그램을 만드는 목적을 분명히 함으로써
      운영 환경의 이전 또는 배포시에도 간편하고 명확하기 때문에 사용을 추천하는 내용이다.
    • 예외처리(except)
      나와 같은 초심자가 코드만 보고 만들면 분명히 직명하게 될법한 상황중 하나를 잘 설명해 주고 있다.

    본 도서는 파이썬 입문서가 아님에도, 파이썬을 처음 접하는 사람에게 도움이 될만한(뭐.. 마음에 안올 수 도 있지만.. ;;;)내용을 첫장&초반 부터 언급하고 있다.

    개인적으로 추천하는 부분 이다.

    추가로, 특정 코드는 상세 설명이 되어 있는 부분도 있다.


    웹스크래퍼의 활용에 대한 고찰

    웹스크래퍼가

    • 웹사이트의 프런트앤드 부분을 테스트 할 경우에도 사용 할 수 있다는것
    • 체크리스트를 만들어 자동화 시킬 수 있다는 부분

    은 아주 유용한 활용 이라 생각된다.

    책을 읽기 전에도, 중반까지 읽으면서도 웹스크래퍼를 만들어서
    뭔가를 보여주는 것에만 사용하면 되겠거니 했던
    본인의 한정된 센스를 되돌아봄... ;


    마무리

    • 파이썬을 이용한 기본적인 스크래핑
    • 다양한 모듈에 대한 소개
    • 스크래핑에 대한 방법론 및 활용
    • 법률상의 참고사항 (물론 보증이 아니라 참고용으로)

    에 대한 설명은 나름 유용하다.

    특히 본인이 관심있던(정확히는 책의 앞부분 정도면 됐지만) 부분이 마침 설명이 되어있어 반가운 책이었다.

    책이 얇은 만큼 각 모듈의 심도있는 활용까지 소개되어 있지는 않지만
    입문서 성격으로 이정도면 충분하다 싶다.

부록/예제소스
자료명 등록일 다운로드
예제소스 2016-12-16 다운로드
결재하기
배송료 : 0원배송료란?

배송료 안내

  • 책, 아이템 등 상품을 3만원 이상 구매시 무료배송
  • 브론즈, 실버, 골드회원이 주문하신 경우 무료배송

무료배송 상품을 포함하여 주문하신 경우에는 구매금액에 관계없이 무료로 배송해 드립니다.

닫기

리뷰쓰기

닫기
* 도서명 :
파이썬으로 웹 크롤러 만들기
* 제목 :
* 별점평가
* 내용 :

* 리뷰 작성시 유의사항

글이나 이미지/사진 저작권 등 다른 사람의 권리를 침해하거나 명예를 훼손하는 게시물은 이용약관 및 관련법률에 의해 제재를 받을 수 있습니다.

1. 특히 뉴스/언론사 기사를 전문 또는 부분적으로 '허락없이' 갖고 와서는 안됩니다 (출처를 밝히는 경우에도 안됨).
2. 저작권자의 허락을 받지 않은 콘텐츠의 무단 사용은 저작권자의 권리를 침해하는 행위로, 이에 대한 법적 책임을 지게 될 수 있습니다.

오탈자 등록

닫기
* 도서명 :
파이썬으로 웹 크롤러 만들기
* 구분 :
* 상품 버전
종이책 PDF ePub
* 페이지 :
* 위치정보 :
* 내용 :

도서 인증

닫기
도서명*
파이썬으로 웹 크롤러 만들기
구입처*
구입일*
부가기호*
부가기호 안내

* 회원가입후 도서인증을 하시면 마일리지 500점을 드립니다.

* 한빛 웹사이트에서 구입한 도서는 자동 인증됩니다.

* 도서인증은 일 3권, 월 10권, 년 50권으로 제한됩니다.

* 절판도서, eBook 등 일부 도서는 도서인증이 제한됩니다.

닫기

해당 상품을 장바구니에 담았습니다.이미 장바구니에 추가된 상품입니다.
장바구니로 이동하시겠습니까?

자료실