会员
实战Python网络爬虫
黄永祥更新时间:2019-11-22 18:45:53
最新章节:28.6 本章小结开会员,本书免费读 >
本书从原理到实践,循序渐进地讲述了使用Python开发网络爬虫的核心技术。全书从逻辑上可分为基础篇、实战篇和爬虫框架篇三部分。基础篇主要介绍了编写网络爬虫所需的基础知识,包括网站分析、数据抓取、数据清洗和数据入库。网站分析讲述如何使用Chrome和Fiddler抓包工具对网站做全面分析;数据抓取介绍了Python爬虫模块Urllib和Requests的基础知识;数据清洗主要介绍字符串操作、正则和BeautifulSoup的使用;数据入库讲述了MySQL和MongoDB的操作,通过ORM框架SQLAlchemy实现数据持久化,进行企业级开发。实战篇深入讲解了分布式爬虫、爬虫软件的开发、12306抢票程序和微博爬取等。框架篇主要讲述流行的爬虫框架Scrapy,并以Scrapy与Selenium、Splash、Redis结合的项目案例,让读者深层次了解Scrapy的使用。此外,本书还介绍了爬虫的上线部署、如何自己动手开发一款爬虫框架、反爬虫技术的解决方案等内容。本书使用Python3.X编写,技术先进,项目丰富,适合欲从事爬虫工程师和数据分析师岗位的初学者、大学生和研究生使用,也很适合有一些网络爬虫编写经验,但希望更加全面、深入理解Python爬虫的开发人员使用。
品牌:清华大学
上架时间:2019-06-01 00:00:00
出版社:清华大学出版社
本书数字版权由清华大学提供,并由其授权上海阅文信息技术有限公司制作发行
最新章节
黄永祥
主页
同类热门书
最新上架
- 会员
Web 3中的零知识证明
基于当前Web3世界的快速发展,零知识证明在落地应用方面取得了快速进展。本书从技术原理和相关具体工程实现的角度对其进行介绍。本书第1章从总体上回顾了Web3的发展,以及当前的表现形态,第2章和第3章从最简洁的数学层面向读者介绍了零知识证明是什么,以及如何构建零知识证明。第4章从技术层面介绍了Web3世界中零知识证明的主流实现方案,第5章从应用层面介绍了零知识证明在Web3世界中的一些典型计算机21万字 C语言程序设计习题解析与上机指导(第4版)
本书是与朱鸣华、罗晓芳、董明等编著的《C语言程序设计教程》配套使用的习题解答与上机指导,根据教学要求设置了三部分内容,包括C语言编程环境简介、知识提要及习题解析、上机指导及实验。本书首先介绍计算机程序实验的一般方法以及在VisualC++2010下编写和调试C语言程序的具体步骤;然后对主教材各章后面的习题以及C语言程序设计课程学习中的疑难问题和常见问题进行了详细的解析,同时,还汇总了各章的知识计算机6.3万字- 会员
动手学数据结构与算法
本书系统介绍了数据结构与算法的基本概念和相关知识,既注重理论,又注重算法设计,更突出代码实现,是一本着眼于数据结构与基本算法的教学实践的教材。本书介绍了线性表、队列与栈、树与优先级队列、集合与静态查找表、动态查找表、排序、外部查找与排序、图、最小生成树与最短路径、算法设计思想等内容,将数据结构的理论与真实应用的实践紧密结合,从各种数据结构的代码实现到火车票管理系统的代码实现,手把手地指导读者学习数计算机15.5万字 - 会员
openGauss数据库开发实战
openGauss数据库是华为公司在多年数据库领域研发经验基础上开发的数据库产品,为企业级场景需求而设计。本书由浅入深地介绍了openGauss数据库的开发过程,主要内容包括openGauss数据库的安装和配置、体系结构和主要运行机制、GUC参数、用户管理和审计、数据类型、表和索引、SQL基础、常用函数、过程化SQL程序设计,以及数据库的备份与恢复等。本书通过实战帮助读者深入理解openGauss计算机9.5万字 - 会员
快人一步:系统性能提高之道
运行速度慢的系统常常令人沮丧。它们会浪费用户的时间和金钱,甚至可能会扼杀项目,危及相关从业人员的职业生涯。本书主要面向那些对计算机程序和其他程序消耗时间情况以及改进这种情况的方法感兴趣的人,作者以一种清晰且值得思考的方式解释了为什么系统会这样运行,并融合亲身经历,用讲故事的方式分享了自己作为程序性能咨询顾问的经验,教大家如何改进系统。他不仅教读者性能优化方面的技能,还引导读者使用新的思维方式,更稳计算机10.3万字 软件开发中的决策:权衡与取舍
本书详细阐述如何在设计、规划和实现软件时做出更好的决策,通过真实的案例,以抽丝剥茧的方式分析那些失误的决策,探讨还有哪些可能的解决方案,并对比各种方案的优缺点,摸索软件设计的常青模式。本书通过实例来说明某些决策的后果,例如代码重复如何影响系统的耦合与演进速度,以及如何在日期和时间信息方面隐藏细微差别。本书还介绍如何根据帕累托法则有效地缩小优化范围,确保分布式系统的一致性。通过阅读本书,读者很快就可计算机23.9万字- 会员
演进式架构(原书第2版)
本书提供了关于适应度函数、自动化架构治理和演进式数据的技术、知识和技巧。本书分为三个部分:第一部分包括定义演进式架构机制的章节——介绍团队如何使用技术和工具来构建适应度函数、部署管道以及其他管理和演进软件项目的机制;第二部分包括围绕耦合、复用和其他相关结构考虑因素的架构风格和设计原则,以帮助读者实现清晰的长期演进;第三部分探讨了第一部分中介绍的工程实践与第二部分中的结构考虑因素的交叉点。计算机12.8万字 - 会员
软件设计基础理论
软件设计是软件开发的核心活动,软件设计理论的发展推动着软件工程的发展。本书梳理了基础的软件设计理论,可帮助读者更好地理解各种软件设计技术。全书共分为5章,第1章介绍软件设计基础原则;第2章介绍程序设计,帮助读者深刻认识程序设计工作背后的机理,而不是仅仅停留在掌握一门或几门程序设计语言上;第3章介绍复杂软件设计,重点包括模块化设计、信息隐藏与设计原则;第4章介绍软件设计方法学,指导读者用系统化、规范计算机13.2万字 - 会员
零基础快速入行入职软件测试工程师(第2版)
本书为软件测试初学者量身打造,从零开始,覆盖软件公司招聘的基本要求。全书分为16章,涵盖了软件测试的核心概念、功能测试方法、Linux基础知识、MySQL数据库管理、Web自动化测试框架、HTTP接口测试、Charles抓包工具的使用、Python接口自动化测试、AI赋能软件测试,以及如何制作求职简历等内容。此外,本书还提供精选面试题及参考答案,助力读者通过面试。全书知识体系循序渐进,紧跟读者需求计算机19.1万字
同类书籍最近更新
- 会员
算法设计与分析:基于C++编程语言的描述
本书注重理论与实践紧密结合,系统介绍算法设计方法、分析技巧和C++编程实战。作者本着“易理解,重实用”的指导思想,结合多年的教学经验,以算法设计策略为主线,沿着“算法思想—算法设计—构造实例—算法描述—算法分析—C++实战”的思路组织学习内容,共包括算法及基础知识、贪心法、分治法、动态规划、搜索法、随机化算法、线性规划问题与网络流、数论算法及计算几何算法和NP完全理论等9章内容。程序设计16.9万字 软件开发中的决策:权衡与取舍
本书详细阐述如何在设计、规划和实现软件时做出更好的决策,通过真实的案例,以抽丝剥茧的方式分析那些失误的决策,探讨还有哪些可能的解决方案,并对比各种方案的优缺点,摸索软件设计的常青模式。本书通过实例来说明某些决策的后果,例如代码重复如何影响系统的耦合与演进速度,以及如何在日期和时间信息方面隐藏细微差别。本书还介绍如何根据帕累托法则有效地缩小优化范围,确保分布式系统的一致性。通过阅读本书,读者很快就可程序设计23.9万字