基于机器学习的数据缺失值填补:理论与方法
上QQ阅读APP看书,第一时间看更新

第3章 缺失值填补方法

在大数据时代,缺失值填补方法因其重要的实用价值而受到广泛关注。研究者从多种角度出发,提出了众多的缺失值填补方法,并取得了十分丰硕的研究成果。鉴于各方法解决数据缺失问题的出发点存在差异,缺失值填补的模型结构和基础理论也不尽相同,一些常见的模型和理论包括:统计学模型、机器学习模型、极大似然原理、证据理论等。为了对缺失值填补方法形成更清晰的认知,本章将对常用的缺失值填补方法进行系统性介绍,大致包括4个方面:基于样本间相似度的填补方法、基于属性间相关性的填补方法、基于参数估计的期望最大化填补法以及针对缺失数据不确定性的填补方法。

目前,各类缺失值填补方法已广泛应用于各领域的研究与实践中,对其进行系统的认知将为缺失值填补方法设计和不完整数据分析打下重要的基础。