隐私计算:推进数据“可用不可见”的关键技术
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

➢ 联邦学习的特点

作为一类融合加密方案的特殊的分布式机器学习技术,联邦学习有以下优势:首先是原始数据不出域,从源头防止数据泄露;其次是去中心或弱中心化,在联邦学习的体系下,各个参与者的身份和地位相同,而可选的中心节点的功能被限制在协调上;最后,从理论上看,联邦学习的建模效果和将整个数据集放在一起建模的效果相同,或相差不大。

跟多方安全计算和可信执行环境一样,虽然联邦学习在理论上能解决数据孤岛和数据安全的问题,但是在实际应用中也面临着一些问题需要不断攻破:一是在部分算法需要协调方参与调度的场景中,如何信任协调方是难点,因此在实践中开始有方案结合多方安全计算;二是迭代训练过程中复杂的通信和计算消耗带来的性能损失如何降低;三是即使融合了多方数据,但如果在联合建模和预测过程中发生数据、模型安全攻击和隐私泄露,或是参与方样本非独立同分布、数据本身的质量过低,也难以获得良好的建模结果;四是仍然需要研究联邦学习的安全性,比如已经有论文研究表明梯度可能造成原始数据的泄露。这些都是当前联邦学习的研究热点。

此外,联邦学习在传统机器学习的基础上额外提出了一个关于激励机制和利益分配的子话题,成了技术本身之外,大家关注的重点。

讨论激励机制的初衷是因为除了数据隐私保护,一个典型的联邦学习过程包含很多训练轮次,都不可避免地要消耗参与方的计算资源、通信资源、设备资源等,且联合建模获得的结果并不一定对己方业务有利。因此在没有足够回报或收益的情况下,参与方企业可能不愿意加入联邦学习。所以联邦学习的研究者们开始讨论设计一种吸引参与方参与的激励机制。希望通过评估计算任务中每个参与方对于最终模型结果的贡献程度,来进行适当的利润分配。这也引发了联合建模场景中对于数据交易定价的思考。很多技术提供方和数据交易平台开始加入相关的研究和讨论中,出现了两类视角,一种是基于数据质量的贡献评估,另一种是基于数据数量的贡献评估,经济学领域中经典的沙普利值法(Shapley Value)、博弈论、契约理论经常在这些相关研究中得到应用。但是真正将基于激励机制实现的利益分配落地还面临着很多实际问题,比如参与方对模型产生负贡献的可能、独立的技术平台在分润中的角色等,因此,在目前的技术产品案例中,我们还没有看到关于激励机制的真正落地。