Have a personal or library account? Click to login
用Python写网络爬虫(第2版) Cover

用Python写网络爬虫(第2版)

Chinese Edition

Paid access
|Mar 2024

史上首本Python网络爬虫图书全新升级版 上一版年度销量近40000册 针对Python 3.x编写 提供示例完整源码和实例网站搭建源码

Key Features

  • 本书是使用Python 3.x的最新特性来爬取网络数据的权威指南。
  • 提供示例完整源码和实例网站搭建源码

Book Description

史上首本Python网络爬虫图书全新升级版,上一版年度销量近40000册。
针对Python 3.x版本编写。
提供示例完整源码和实例网站搭建源码,确保用户能在本地成功复现爬取网站环境,并保障网站的稳定性与可靠性以及代码运行结果的可再现性。

Internet上包含了许多有用的数据,其中大部分是可以免费公开访问的。但是,这些数据不容易使用,它们内嵌在网站的架构和样式中,在提取时也需要多加小心。网络爬取技术作为一种收集和理解网络上海量信息的方式,正变得越来越有用。
本书是使用Python 3.x的最新特性来爬取网络数据的权威指南。本书讲解了从静态网站提取数据的方法,以及如何使用数据库和文件缓存技术来节省时间并管理服务器负载,然后介绍了如何使用浏览器、爬虫和并发爬虫开发一个更为复杂的爬虫。
借助于PyQt和Selenium,你可以决定何时以及如何从依赖JavaScript的网站上爬取数据,以及更好地理解在受CAPTCHA保护的复杂网站上提交表单的方法。本书还讲解了使用Python包(比如mechanize)进行自动化处理的方法、使用Scrapy库创建基于类的爬虫的方法,以及如何在真实的网站上实施所学的爬虫技巧。
本书最后还涵盖了使用爬虫对网站进行测试、远程爬取技术、图像处理以及其他相关的主题。

本书主要内容如下:
使用简单的Python程序从页面中提取数据;
构建并发爬虫,对页面进行并行处理;
通过跟踪链接来爬取一个网站;
从HTML中提取特性;
缓存下载的HTML,以供复用;
比较并发模型,确定最快的爬虫;
解析依赖于JavaScript的网站;
与表单和会话进行交互。

What you will learn

  • 使用简单的Python程序从页面中提取数据;
  • 构建并发爬虫,对页面进行并行处理;
  • 通过跟踪链接来爬取一个网站;
  • 从HTML中提取特性;
  • 缓存下载的HTML,以供复用;
  • 比较并发模型,确定最快的爬虫;
  • 解析依赖于JavaScript的网站;
  • 与表单和会话进行交互。

Who this book is for

Python开发人员、搜索引擎开发人员

Table of Contents

  1. 网络爬虫简介
  2. 数据抓取
  3. 下载缓存
  4. 发下载
  5. 动态内容
  6. 表单交互
  7. 验证码处理
  8. Scrapy
  9. 综合应用
PDF ISBN: 978-1-83588-851-3
Publisher: Packt Publishing Limited
Copyright owner: © 2024 Packt Publishing Limited
Publication date: 2024
Language: English
Pages: 212

People also read