Python 3网络爬虫实战
上QQ阅读APP看书,第一时间看更新

本书内容

本书共12章,第1~4章介绍Python 3.8的基本安装、简单Python程序的编写、网络爬虫的基本原理以及网页数据的存储和读取。第5章介绍的Scrapy爬虫框架主要针对一般无须登录的网站,在爬取大量数据时使用Scrapy会很方便。第6章介绍的BeautifulSoup爬虫可以算作爬虫的“个人版”。BeautifulSoup爬虫主要针对一些爬取数据比较少、结构简单的网站。第7章介绍的PyQuery模块的主要功能是对页面进行快速爬取,重点是以jQuery的语法来操作解析HTML文档。第8章介绍的Selenium模块的主要功能是模拟浏览器,作用主要是针对JavaScript返回数据的网站。第9章介绍PySpider框架,通过UI界面与代码结合实现网站的爬取。第10~12章介绍一些比较分散的爬虫技术,如图片验证码识别、爬取部分App内容、反爬虫等。