基于机器学习的数据缺失值填补:理论与方法
上QQ阅读APP看书,第一时间看更新

第1章 绪论

随着信息时代的到来,各行业的数据规模呈爆炸式增长。由于数据质量难以得到有效保障,数据缺失已经成为实验研究和实践过程中面临的重要问题。在面对缺失数据时,直接删除往往会造成大量信息丢失,严重降低数据集的可靠性。缺失值填补方法利用现有数据为缺失值计算合理的填补值,从而构造完整的数据集。该方式既可以保持原始数据集的规模,又能够对缺失值做出合理的推断,已成为缺失数据处理的研究热点。

常用的缺失值填补方法主要包括基于统计学的缺失值填补方法和基于机器学习的缺失值填补方法。基于统计学的缺失值填补方法具备广泛的研究基础,且研究成果斐然。而鉴于机器学习算法在处理大规模数据时具有良好的表现,将其应用于数据填补工作具有重要的现实意义。大多数基于机器学习的填补方法根据不完整数据集中的已知信息建立预测模型,并通过训练出的预测模型估计缺失值,其优越性已经在实验研究和实践过程中得到了充分验证。目前,缺失值填补方法已经为基于数据的科学研究提供了可靠的基础,并且在多个实践领域获得了广泛的应用。随着移动互联网、物联网、云计算产业的深入发展,高质量的数据已经成为推动各行业发展的重要因素,缺失值填补方法必将因其重要的现实意义与实用价值而受到越来越多的关注。