-
파이썬으로 웹 크롤러 만들기(3판)독서 2025. 3. 21. 12:08
"한빛미디어 서평단 <나는리뷰어다> 활동을 위해서 책을 협찬 받아 작성된 서평입니다."
올해도 서평단을 신청했었는데, 합격하게 되어 25년도도 서평을 작성하게 되었습니다!
방학 기간에 크롤링 관련 유튜브를 보며 짧게 공부했는데, 조금 더 구체적으로 배워보고 싶어
선정한 책입니다.
< 파이썬으로 웹 크롤러 만들기(3판) > 목차
2개의 파트와 20개의 챕터로 구성되어 있습니다.
Part 1. 웹 스크레이퍼 제작
- 인터넷 작동 원리
- 웹 스크레이핑의 합법성과 윤리
- 웹 스크레이핑 활용 분야
- 첫 번째 웹 스크레이퍼
- 고급 HTML 분석
- 크롤링 시작하기
- 웹 크롤링 모델
- 스크레이피
- 데이터 저장
Part 2. 고급 스크레이핑
10. 문서 읽기
11. 지저분한 데이터 다루기
12. 자연어 읽고 쓰기
13. 폼과 로그인 뚫기
14. 자바스크립트 스크레이핑
15. API를 통한 크롤링
16. 이미지 처리와 텍스트 인식
17. 스크레이핑 함정 피하기
18. 스크레이퍼로 웹사이트 테스트하기
19. 병렬 웹 스크레이핑
20. 웹 스크레이핑 프록시
< 파이썬으로 웹 크롤러 만들기(3판) > 포인트
- BeautifulSoup의 문법
복잡한 HTML에서 원하는 정보만 추출할 때 속성을 통한 태그 검색, 트리 내비게이션 분석 등의 방법을 구체적으로 설명하고 있습니다. 특히 정규 표현식의 기호와 이메일을 예시로 든 규칙으로 친절하게 설명하고 있습니다.
- 자연어 분석
텍스트 분석과 관련해 데이터 요약, 마르코프 모델, 자연어 툴킷에 대해 설명합니다. NLTK 모듈의 경우 설치부터 통계적 분석 방법까지 구체적으로 나와있습니다. 예제를 이용한 코드 설명과 코드 결과를 함께 제시해 이해를 돕습니다.
- 웹사이트 테스트
단위 테스트와 테스트의 정의로 챕터를 시작합니다. 다양한 테스트 모듈을 정의하고 꼼꼼하게 나와있었습니다. 저는 여러 테스트 중에서 도 셀레니움을 사용한 테스트를 알게 되었습니다!
< 파이썬으로 웹 크롤러 만들기(3판) > 리뷰
웹 크롤링 모델부터 스크레이핑 함정, 병렬 웹스크레이핑 등 크롤링에 대한 내용을
전체적으로 담고 있는 책입니다. 특히 파트 1에서는 라이브러리 위주의 설명을, 파트 2에서는 웹 스크레이핑 관련 추가 주제를 담고 있어 많은 정보를 쉽게 찾고 공부할 수 있습니다.
파이썬을 이미 배웠는데 크롤링에 입문하고 싶으신 분, 또는 크롤링을 배웠는데 다시 정리하며 확인해보고 싶으신 분들께 추천드립니다.
파이썬으로 웹 크롤러 만들기(3판)
다양한 웹에서 효율적으로 데이터를 수집하는 방법 A to Z
www.hanbit.co.kr
'독서' 카테고리의 다른 글
파이썬으로 배우는 통계학 교과서(2판) (1) 2024.12.28 이것이 우분투 리눅스다(3판) (0) 2024.11.25 이것이 취업을 위한 컴퓨터 과학이다 with CS 기술 면접 (3) 2024.09.12 AI 딥 다이브 (0) 2024.08.23 처음 시작하는 FastAPI (1) 2024.07.26