3.3 稳定学习
现有的大多数机器学习模型的出色表现都建立在独立同分布的假设之上,如图3-11所示,利用符合分布1的训练数据训练机器学习模型,训练完毕后使用同样从分布1中采样得到的数据进行测试,这种情况就是符合独立同分布假设下的机器学习。当测试数据的分布(分布n)与训练数据的分布(分布1)不同时,就要通过迁移学习(Transfer Learning)的方法,针对特定分布的测试数据优化模型。
图3-11 独立同分布假设下的机器学习、迁移学习和稳定学习
尽管迁移学习的技术可以解决这种特征分布发生偏移场景下的问题,但它解决的问题依然不是最普遍的场景。在应用迁移学习时,必须知道测试数据的分布才能够进行。但是在实际场景中,人们往往无法控制测试数据是如何产生的。同时,模型可能会应用在各种不同的未知环境中,在这些环境中,测试数据的分布也是各不相同的。
因此,研究者会希望当模型应用在不同的数据分布中时,不仅能够优化平均准确率,还能够对模型的准确率的方差进行优化,使得准确率的波动被控制在一个较小的范围内。如果平均准确率和准确率的方差都能得到优化,就可以保证模型在不同环境下都有一个可靠的表现,从而实现稳定学习。本小节将介绍如何借助因果效应评估方法,发掘特征变量与预测目标变量之间的因果关联,实现稳定学习。
3.3.1 二值特征下的稳定学习
由于观测性数据符合的分布情况往往是未知的,因此混淆变量平衡方法不依赖于对分布的模型假设,直接计算每个样本的权重更有助于在广泛的实际应用场景中实现稳定学习。
在因果推理问题中,混淆变量平衡方法通过对样本进行加权,使得实验组和对照组的混淆变量X分布一致的方式,估计干预变量T对Y的因果效应。实际上,这种操作是通过样本加权的方式使得X和T独立,当X和T独立时,T与Y之间的关联性等价于T对Y的因果效应。当把这种思想推广到机器学习的领域中时,一个重要的区别在于:因果推理关心的是单个变量对预测目标变量的因果关联,而在机器学习领域需要发现所有输入变量与预测目标变量之间的因果关联,利用有因果关联的因果特征进行预测。
因此,稳定学习把混淆变量平衡的思想推广到所有变量的层面,如图3-12所示,学习一组样本权重W,使得加权后所有输入变量之间互相独立,这种方法被称为全局变量平衡(GlobalBalancing)。此时,可以利用现有的基于关联性的模型实现基于因果的预测。以此为基础,Causally Regularized Logistic Regression(CRLR)[82]依次把输入变量的每维当作干预变量,其余维度当作混淆变量,计算实验组和对照组的混淆变量矩的差的二范数,把每维输入变量当作干预变量得到的二范数累加起来,得到学习权重的目标函数:
式中,p是输入变量的维度;X-j是把第j维去除后剩下的输入变量组成的矩阵;I j是当把第j维输入变量作为干预变量时,各个样本是否属于实验组。
在用学到的样本权重W加权之后,输入变量各维之间互相独立,此时使用原本基于关联的逻辑回归模型就可以产生包含因果关联的结果。
图3-12 稳定学习通过样本重加权的方式使得输入变量X中的各个变量互相独立
因此,CRLR的优化目标函数为
在加权使得输入变量各维度独立之后,逻辑回归得到的系数β代表了各维变量与预测目标变量(标签)之间的因果关联强度。在关于10个类的分类任务中,输入变量是使用了SURF算子[87]和Bag-of-Words模型[88]形成的二值向量特征,输出的是该类物体是否存在的二值标签。CRLR相比关联模型有一定的提升,且在分布偏移(在这个任务中测试数据与训练数据是按Context区分的,Contextbias代表了分布偏移的程度)越明显的分类任务上提升越多,即分布偏移越大,提升越大,如图3-13所示。
另外,将CRLR算法和逻辑回归模型选出的对分类任务最重要(β系数偏离0最多)的特征进行可视化,如图3-14所示。红色边界框是CRLR选出的,绿色边界框是逻辑回归模型选出的。由于一个特征对应着多个边界框,红色边界框和绿色边界框的数量不一定相等。CRLR选出的特征更多地位于预测目标物体上,而逻辑回归选出的特征会位于背景上。由此可以看出,CRLR的结果具有更好的可解释性。
图3-13 CRLR相比关联模型的提升与分布偏移的关系。
图3-14 CRLR算法和逻辑回归模型选出的对分类任务最重要的若干特征
3.3.2 连续特征下的稳定学习
在实际场景中,输入的特征变量很多时候不是二值类型的,而是连续型的。因此不能用将样本按照变量值分为实验组和对照组然后平衡两组样本变量的分布的方式令输入变量之间互相独立。
根据文献[89]的结果可以得知,对于两个输入变量X j和X k,当满足条件,∀a,b∈N时独立。DecorrelatedWeighted Regression(DWR)[84]以此出发,考虑变量的一阶矩,提出了计算权重的优化目标:
基于上述权重W,DWR对加权后的数据做最小二乘学习回归系数β。权重W和回归系数β采用联合优化的方式得到:
在模拟数据的实验中,输入变量X={S,V}共有10维,其中包括5维变量S对预测目标Y有因果关联,以及5维变量V对预测目标Y的关联是虚假关联。加权前和加权后,各维输入变量X={S,V}与预测目标变量Y之间的皮尔森相关系数如图3-15所示。可以看到在原始数据中,变量V与Y有虚假关联。当各维输入变量之间在加权消除关联之后,V与Y之间的虚假关联被消除,只有变量S与Y依然还有关联。
图3-15 数据加权前和加权后,各维输入变量与预测目标变量Y之间的皮尔森相关系数
在基于气象学数据的气温、气压、相对湿度和风速风向等预测空气PM 10污染度情况的实验中。以一个州的数据进行训练,其他州的数据进行测试。由于各州的地理位置及自然环境不同,其输入变量的分布有所差异。分布的差异大小用特征的一阶矩的差表示。如图3-16所示,当测试数据的分布与训练数据的分布偏移变大时,Lasso回归、Ridge回归等模型的预测结果的均方根误差(RMSE)会明显变大,而图3-16(b)所示的DWR模型(OUR)取得了较小且稳定的均方根误差表现。
图3-16 不同模型用各州数据测试的表现
3.3.3 从统计学习角度的解释
线性回归是常用的一种预测建模方式,例如第7章中的量化投资多因子模型就是线性回归的一个应用例子。因此,考虑预测目标Y从输入变量X产生的真实机制是
式中,b(X)是模型假设错估造成的误差项,并假设它的值是有界的b(X)≤δ;p是输入变量X的维度;∊是噪声项。如果线性回归Y=得到的回归系数能够准确地估计出,那么由于b(X)的变化范围有限,Y的预测误差也能控制在δ之内。因此就能够实现稳定学习。
可以证明线性回归得到的回归系数与的差的二范数存在上界[83]:
式中,γ是X的协方差矩阵的最小特征值。当X各维之间独立时,γ会增大,从而降低回归系数误差的上界。因此,从统计学习的角度来看,对输入变量进行独立性优化,可以降低对真实模型系数的估计误差,保证模型预测的稳定性。
3.3.4 区分性变量去关联的稳定学习
前文介绍的稳定学习方法通过样本重加权的方式,消除了输入变量各维之间的相关性。但是,在实际场景中,部分变量之间的关联是不随环境变化而改变的。例如在关于狗的图像分类任务当中,狗的鼻子、耳朵和嘴往往是同时出现或不出现的,它们作为一个整体决定了分类结果。因此,Differentiated Variable Decorrelation(DVD)[83]提出将各维输入变量分为若干组,在计算样本权重时,只对不同组的变量去除关联。要发掘变量之间关联度的稳定性,DVD要求有多个环境下的数据。基于多环境的数据,DVD先对两两输入变量之间计算Dis(X j,X k):
式中,Corr()代表了X j和X k在第l个环境下的皮尔森相关系数;AveCorr(X j,X k)代表了所有环境下X j和X k相关系数的平均值。于是,Dis(X j,X k)代表了变量X j和X k之间关联程度在不同环境下的变化程度。为每个变量计算一个向量F:
关联跨环境稳定不变的变量对应的F向量会比较接近。因此按照向量F对变量进行聚类,处于同一类的变量关联是跨环境稳定不变的,无须去除关联性。只有不同类之间变量的关联性需要去除。用变量聚类的结果改进DWR的样本权重计算过程,权重优化的目标:
式中,I(j,k)代表了聚类结果中X j和X k是否处于同一类。如图3-17所示,相比DWR,DVD减少了不必要的变量之间的去关联,因此提升了权重的有效样本数N eff=,在预测任务上的表现也有所提升。
图3-17 DVD和DWR在权重的有效样本数下的对比以及与关联模型的预测误差RMSE的对比
3.3.5 与深度神经网络相结合的稳定学习
随着深度学习相关研究的兴起,深度神经网络凭借其强大的建模和预测能力,在计算机视觉、自然语言处理等诸多领域得到了广泛的应用。如何将稳定学习的思想与深度神经网络结合,提升神经网络预测的稳定性是一个值得研究的问题。本小节将介绍StableNet在图像分类上的深度稳定学习方法[85]。
当把稳定学习的方法应用到深度模型时,会遇到两个重要挑战。一方面是特征之间复杂的非线性依赖关系比线性依赖关系更加难以度量和消除。另一方面是原始的全局样本加权策略在深度学习场景下对存储量和计算量要求都比较大,往往难以承受。因此,前文提到的全局变量平衡方法变得不太适用。
针对输入特征是连续值,而且相互间呈现非线性依赖关系两个难点,StableNet提出采用随机傅里叶特征(Random Fourier Feature,RFF)[90]将原特征投影至高维空间中去,消除投影后的特征之间的线性相关性,即可实现原特征之间的独立。
具体地,假设两个变量A和B的互协方差矩阵:
u(A)=(u1(A),u2(A),···,u n A(A)),u j(A)∈H RFF,∀j,
v(B)=(v1(B),v2(B),···,v n B(B)),v j(B)∈H RFF,∀j.
其中,H RFF是RFF的函数空间:
将变量A和B之间的关联程度定义为矩阵的Frobenius范数,即I AB=。当I AB趋近于0时,A和B独立。以此为基础,StableNet按如下步骤迭代地学习样本权重W、表征网络f及预测网络g:
式中,Z(t)=f(t)(X);L是交叉熵损失函数;t是迭代的轮次。
为了解决深度学习在每轮迭代过程中只能观察到部分样本的问题。StableNet提出了一种存储、重加载样本特征与样本权重的方法。在每个训练迭代结束之后,将当前步的样本特征和权重与保存的全局样本特征和权重融合再重新保存。在下一个训练迭代开始时重加载,作为训练数据的全局先验知识优化新一轮的样本权重。优化权重的每步如下:
Z O=Concat(Z G 1,Z G 2,···,Z Gk,Z L),
W O=Concat(W G 1,W G 2,···,W G k,W L),
式中,Z G 1,Z G 2,···,Z Gk和W G 1,W G 2,···,W G k分别是全局特征和全局权重,代表了整个数据集的信息;Z L和W L分别是当前批次数据的特征和权重。当计算当前批次数据的权重W L时,把W O和Z O带入式(3-26)中,只优化W L部分。当前迭代轮次结束后,更新全局特征和全局权重:
StableNet的整体结构图如图3-18所示。输入图片经过卷积网络提取特征之后,分成了两支,上方一支是样本权重学习子网络,下方分支是常规分类的网络。最终训练损失是分类网络预测损失与样本权重的加权求和。
如表3-1所示,在PACS[91]和VLCS[92]等领域泛化(Domain Generalization)[93,94]的数据集上,StableNet在属于不同分布的不同领域的数据集上测试的表现明显高于其他方法。
图3-18 StableNet的整体结构图
表3-1 StableNet在领域泛化实验上的结果
将分类结果关于图片中的各个像素的梯度大小可视化,得到的显著图如图3-19所示。亮度越高的像素对分类结果影响越大。从显著图的结果可以发现,StableNet的关注区域集中于分类物体本身,而ResNet模型的关注区域分布在了背景区域。因此可以认为StableNet的预测结果更多的是基于对预测标签有因果关联的特征。
图3-19 StableNet和ResNet-18模型的显著图