用Python写网络爬虫（第2版）

Chinese Edition

Publisher:Packt Publishing Limited

By: Posts & Telecom Press and Katharine Jarmul

Paid access

|Sep 2024

E-Book €22.99Institutions €131.95

Description

史上首本Python网络爬虫图书全新升级版上一版年度销量近40000册针对Python 3.x编写提供示例完整源码和实例网站搭建源码

Key Features

本书是使用Python 3.x的最新特性来爬取网络数据的权威指南。
提供示例完整源码和实例网站搭建源码

Book Description

史上首本Python网络爬虫图书全新升级版，上一版年度销量近40000册。
针对Python 3.x版本编写。
提供示例完整源码和实例网站搭建源码，确保用户能在本地成功复现爬取网站环境，并保障网站的稳定性与可靠性以及代码运行结果的可再现性。

Internet上包含了许多有用的数据，其中大部分是可以免费公开访问的。但是，这些数据不容易使用，它们内嵌在网站的架构和样式中，在提取时也需要多加小心。网络爬取技术作为一种收集和理解网络上海量信息的方式，正变得越来越有用。
本书是使用Python 3.x的最新特性来爬取网络数据的权威指南。本书讲解了从静态网站提取数据的方法，以及如何使用数据库和文件缓存技术来节省时间并管理服务器负载，然后介绍了如何使用浏览器、爬虫和并发爬虫开发一个更为复杂的爬虫。
借助于PyQt和Selenium，你可以决定何时以及如何从依赖JavaScript的网站上爬取数据，以及更好地理解在受CAPTCHA保护的复杂网站上提交表单的方法。本书还讲解了使用Python包（比如mechanize）进行自动化处理的方法、使用Scrapy库创建基于类的爬虫的方法，以及如何在真实的网站上实施所学的爬虫技巧。
本书最后还涵盖了使用爬虫对网站进行测试、远程爬取技术、图像处理以及其他相关的主题。

本书主要内容如下：
使用简单的Python程序从页面中提取数据；
构建并发爬虫，对页面进行并行处理；
通过跟踪链接来爬取一个网站；
从HTML中提取特性；
缓存下载的HTML，以供复用；
比较并发模型，确定最快的爬虫；
解析依赖于JavaScript的网站；
与表单和会话进行交互。

What you will learn

使用简单的Python程序从页面中提取数据；
构建并发爬虫，对页面进行并行处理；
通过跟踪链接来爬取一个网站；
从HTML中提取特性；
缓存下载的HTML，以供复用；
比较并发模型，确定最快的爬虫；
解析依赖于JavaScript的网站；
与表单和会话进行交互。

Who this book is for

Python开发人员、搜索引擎开发人员

网络爬虫简介
数据抓取
下载缓存
发下载
动态内容
表单交互
验证码处理
Scrapy
综合应用

Table of contents

Authors

Metrics

PDF ISBN: 978-1-83588-851-3

Publisher: Packt Publishing Limited

Publication date: 2024

Language: English

Pages: 212

Related subjects:

Computer sciences,

Computer sciences, other

用Python写网络爬虫（第2版）

Key Features

Book Description

What you will learn

Who this book is for

Table of Contents

People also read

Publications carousel

Python编程入门与实战

Python高级编程（第2版）

Python实用技能学习指南

Web机器学习

Python应用开发指南

Python Web Scraping

Python面向对象编程指南

写给系统管理员的Python脚本编程指南

Python Web Scraping

编写整洁的Python代码（第2版）

Paradigm

My account