前沿 Idea Watch
人口统计
预测类技术可能面临道德批判
WHEN DOES PREDICTIVE TECHNOLOGY BECOME UNETHICAL?
艾瑞克·西格尔(Eric Siegel) | 文
柴茁 | 译 蒋荟蓉 | 校 孙燕 | 编辑
机器学习可以探知你的许多秘密——包括最敏感的信息,比如预测你的性取向、是否怀孕、是否要辞掉工作,或者可能命不久矣。
那么,机器是真的“知道”你的秘密,还是仅靠猜测?如果机器只是像人一样进行推测,那这么精确有错吗?
让我们来看几个例子:
美国塔吉特百货(Target)对孕妇的预测,或许是算法探知人类秘密最知名的用例之一。2012年,《纽约时报》的一篇文章讲述了企业可以如何利用手中的数据,文章中有一则趣闻:一名父亲看到塔吉特百货给女儿发送带有明显指向性的婴儿用品优惠券,才得知十几岁的女儿怀孕了。这个故事可能是虚构的,即便真发生过,根据文章对塔吉特百货工作流程的详细解读来看,也可能只是巧合,而非预测性分析。不过,预测技术的确存在隐私风险。毕竟,如果一家公司的市场部门能够预测出谁怀孕,就代表其查看了非自愿提供的敏感医疗数据,但其实只有受过专业培训的医护人员才能妥善处理和保密这类数据。
此类信息的获取途径如果得不到妥善管理,将对个人生活产生巨大影响。一名担忧的市民在网上指出,设想一名孕妇,“工作不稳定,而且还没有申请好产假期间的政府福利……此时被曝光怀孕,可能会令她失去生产补助金(约2万美元)、产假福利(约1万至5万美元),甚至丢掉工作。”
这不是数据处理不当、泄露或被窃取的问题,而是产生新的数据——即间接发现人们不愿意披露的真相。企业可以通过现有的数据进行预测,见微知著,从而获得有力的洞察。
因此,预测模型的表现过于优异,是否反而对我们不利?我们知道,模型预测不准确会造成损失,但过于准确是否也不太好?
即便本身准确性不高,模型仍然可以对特定人群的怀孕情况做出准确预测。假设18岁至40岁之间的女性顾客中有2%是孕妇,如果模型能够找出顾客中怀孕可能性高于平均水平3倍的人,其中只有6%是孕妇,这样一来预测准确性就提升到了原本的3倍。若是进一步缩小范围,比如锁定最可能怀孕的前0.1%人群,预测准确性会更高,如果提升到原来的46倍,那么这其中可能有92%的人是孕妇。在这种情况下,系统足以识别出非常可能怀孕的女性。
同样的概念也适用于预测性取向、种族、健康状况、定位和离职意向。即便一个模型综合来讲不是很准确,但针对相对有限的群体,也可能准确地预测到这些信息。因为人群中总有一小部分人的相关信息更加易于探测。现在的技术或许只能准确预测相对较小的群体,但即便是100万人里前0.1%的群体,也意味着有1000个人的情况是可以被预测的。
很好理解人们为什么不想让其他人知道这些信息。2013年惠普预测将有超过30万员工可能离职——相关指标被惠普称为逃跑风险(Flight Risk)指数,并被提交给管理者。如果计划离职,你大概不会想在正式提出之前让领导知道。
还有一个例子,人脸识别技术可以用于追踪定位,涉及一个人悄无声息转移地点的基本自由,比如公共场所放置的监控就能够识别出某人在某一时间段在某个特定地点。我当然不是指责人脸识别技术,但微软和谷歌的CEO都因这个原因而反对这项技术。
再比如,一家咨询公司为人力资源部门制作了预测员工流失情况的模型,并表示可以预测员工死亡状况,因为这也是造成员工流失的一个因素。人力资源部门回应道,“不要给我们看这个!”他们并不想承担预知哪些员工可能马上面临死亡威胁而带来的责任。
研究表明,预测性模型还可以通过Facebook点赞等痕迹,识别出其他隐私属性——比如种族和民族。需要担心的是市场营销人员会如何利用此类预测。哈佛大学政府和技术专业教授拉坦娅·斯威尼(Latanya Sweeney)说,“最后,网上的广告会带有针对性。你不会想让新手妈妈看钓鱼竿广告,而让钓鱼的人看纸尿布的广告。问题是这种针对性什么时候会越过精准营销的界限,对整个群体产生负面影响?”的确,斯威尼的一项研究表明,用谷歌搜索“听起来像黑人”的名字时,弹出广告暗示这个人有犯罪前科的几率比搜索其他姓名时高出25%,即便广告商的逮捕记录库中并没有叫这个名字的人。
“如果创造一项可以分辨出种族的技术,就可能有人用其去压迫这个种族的人。”美国乔治敦大学法学院隐私及技术中心高级经理克莱尔·加维(Clare Garvie)说。
利用预测性技术对不同民族实施差别对待,将风险提升到了一个新水平。麻省理工学院深度学习研究员乔纳森·弗兰克(Jonathan Frankle)提醒说,这种趋势可能会蔓延到多个地区。“我认为将这种技术视为对民主的威胁并不过分。一旦国家采用这种严重的威权模式,就会利用数据,以一种更根深蒂固的方式来强行灌注思想和规则……从这个意义上说,我们正在稀里糊涂地步入这场紧急危机。”
给机器学习所追求的预测性目标划清道德界限,是一个艰巨的挑战,要准确划定应该立法禁止的部分(如果有的话)更是难上加难。但是,我们至少要保持警惕,注意机器学习何时会助长早已存在的不道德行为,以及要何时小心处理其产生的数据。
艾瑞克·西格尔博士是知名顾问,曾于哥伦比亚大学任教,将机器学习讲得通俗易懂、引人入胜。他是“预测分析世界”(Predictive Analytics World)与“深度学习的世界”(Deep Learning World)系列会议的创始人,也是Coursera机器学习公开课讲师。他是一位受欢迎的演讲者,曾受邀发表过100多场主旨演讲,也是《机器学习时报》(The Machine Learning Times)执行主编。他著有畅销书《预测性分析:预知谁会点击、购买、撒谎或死亡的魔力》(Predictive Analytics: The Power to Predict Who Will Click, Buy, Lie, or Die)。