Python网络爬虫技术与实践
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第2章
数据采集与预处理

数据的起源比文字的起源还要早,在上古时期,绳结上就承载了早期人类的数据。《周易》有云:“上古结绳而治”。《春秋左传集解》云:“古者无文字,其有约誓之事,事大大其绳,事小小其绳,结之多少,随物众寡,各执以相考,亦足以相治也。”人们将早期社会中的事物抽象成大小不一、数量各异的绳结,从而留下对重要事物的记载。之后文字、数字的出现,使人们能够以更小的空间来记录更丰富的内容。纸张的出现替代了甲骨、石头、青铜等笨重的数据载体,使人类产生的数据体量得到一个快速增长。印刷术的出现使数据的传播速度加快,传播成本降低。这些伴随人的生活实践产生的数据被人们反复研究,促进了天文、气象、运筹等学科的出现,数据给人的价值随着这些学科的发展也越来越高。到了近代,随着电磁、材料等学科的发展,数据的载体与传播方式又有了革命性的变化,磁盘、光纤、电磁波使海量数据的存储与传播成为可能。伴随着计算机技术与互联网的快速发展迭代,人类产生的数据迎来了爆炸式的增长,大数据这个概念从理论逐渐步入现实。大数据时代,需要掌握各种数据存储、分析处理、可视化工具,才能变数据为价值。

本章首先介绍数据,包括数据和大数据的基础概念、类型、存储形式等;然后介绍数据分析的基本环节。其中数据的采集与预处理任务是本章着重介绍的环节。数据采集主要介绍数据源与采集方法;预处理任务包括数据清洗、数据集成、数据转换和数据脱敏四个部分。

学习目标

1.了解什么是数据,什么是大数据。

2.熟悉数据分析过程。

3.掌握数据预处理方法。