数据清洗
上QQ阅读APP看书,第一时间看更新

2.9 小结

1)在大数据时代,数据质量正是企业应用数据的瓶颈,高质量的数据可以决定数据应用的上限,而低质量的数据则必然拉低数据应用的下限。

2)数据预处理就是对于数据的预先处理,其目的是为了提高数据挖掘的质量,其主要包含数据审核、数据筛选和数据排序三部分内容。

3)数据预处理有多种方法:数据清理、数据集成、数据变换、数据归约等。这些数据处理技术在数据挖掘之前使用,大大提高了数据挖掘模式的质量,减少了实际挖掘所需要的时间。

4)数据清洗的主要方法包括对缺失数据的清洗、对噪声数据的清洗、对冗余数据的清洗,以及对数据格式和内容的处理。

5)在数据清洗中常用的统计学知识主要包括描述性统计、统计推断和随机变量及其分布。