
第一章 绪论
一 从信息分发平台的算法逻辑说起
想象一下,当我们拿起手机,打开任意一款App,购物、听音乐、订购机票、看新闻、刷短视频等一系列日常活动,都意味着我们要在互联网上生活。当我们在互联网上,每一次登录、信息注册,任意一次点击、浏览、发表评论、转发、写下关键词等一系列动作,都会被作为数据储存在App后台。我们会发现,人们在网上所做的行为都会像记忆一样被保存下来。而当我们下一次行动的时候,就会有相似的内容再次出现:点击了一则消息,页面立即会提醒“你可能喜欢……”;下单了一款产品,页面会呈现“更多相似推荐”;浏览新闻时,下一次打开的新闻也“似曾相识”。如果我们和家人、朋友使用同一款App下单购物时,页面呈现的商品是不同的:男性的话,可能会推荐电脑、剃须刀,女性的话则会推荐化妆品、时装。我们浏览同一个新闻或视频App,页面呈现的信息流也许完全不同;当我们看一个视频,手一滑,下一个,再下一个,不知不觉沉浸其中时,穿插在信息流里的广告被我们有意无意间当作信息内容消费掉了;当我们不知道发布了什么敏感信息时,也许瞬间就被404了……
这样的场景在互联网世界里时时刻刻都有出现。我们进入了“数据驱动的社会”(福田雅树等,2020;舒晓灵、陈晶晶,2017)。可以说,我们的生活是在与各种人机交互界面(手机应用软件最为典型)的互动之中展开的:我们应该看什么样的信息,应该消费哪些产品,应该把时间注意力放到何处,这些似乎是我们自己决定的,又似乎不是我们自己决定的。当我们开始思考“这些都是我想要的吗?”“谁在决策信息的呈现?”“为什么会给我推荐这个?”“为什么我点击了这个,下次还会有相关的信息出现?”“为什么我收到的信息和别人收到的不一样?”“为什么我在这个App买过的商品,又在另一个App中出现了广告?”,我们的数字生活已经被一套套算法逻辑所影响和塑造。
(一)什么是算法?
随着大数据、云计算、人工智能等信息科技的迅速发展,算法日益成为社会经济发展和公共治理的重要支点,也成为数字社会的技术核心(邱泽奇,2021)。算法,从广义上讲,是解决问题的方法和步骤;而从狭义上讲,随着计算机信息技术的发展,算法逐渐成为“运行代码的程序逻辑”(Napoli,2013),或是作为定义好的步骤,用于处理指令/数据以产生输出,成为机器学习解决问题的方法与步骤(Kitchin,2016)。当大数据、人工智能技术进一步提高了算法的性能,机器学习算法已经基于大数据集进行自我学习形成规则集并应用于不同场景下的感知和决策(贾开,2019)。
当然,当本书讨论算法(algorithm)时,从语义学含义来说实际上讨论的却是算法在技术意义上的应用(或实践):数字设备和以软件为动力的网络系统都是由数字技术的算法组成的,并被算法所调节、生产和管理(Greenfield,2006;Kitchin & Dodge,2011;Steiner,2013;Manovich,2013),最终成为所谓的“算法机器”(Gillespie,2014)。算法实践持续塑造着人们在娱乐、消费、工作、旅行、通信、家务、安全等领域的生产与生活体验:较为成熟的算法包括用于执行搜索任务的搜索引擎算法,用于安全交换的加密算法,用于电子商务、社交媒体的推荐算法,还有用于模式识别、数据压缩、自动校正、导航、预测、分析、模拟和优化的算法等(MacCormick,2013)。
(二)社会学重新审视“算法”的两重性
总的来看,算法具有两重性:一方面,算法具有技术性,算法的操作离不开数据支撑,需要其所在技术系统不同技术元素紧密配合(平台、硬件、软件基础设施等);另一方面,算法同样具有社会性,需要有人工规则、策略去设计、定义和评估,涉及生产与消费、使用的社会过程(Willson,2017)。所以,算法作为技术—社会实践过程,成为人与代码结合的运行规则,我们不能忽视人类在其中发挥的主观能动性。已有研究也表明,算法实践具有价值取向,其商业化运用会受到资本力量的推动,其构建的过程也会受到权力和知识等制度化活动领域的影响(Kitchin,2016)。具体来说,现实中屡见不鲜的“大数据杀熟”“算法歧视”等现象,就是算法实践决定和影响我们日常生活的一个表现。
所以,算法不应该只在计算机科学领域成为研究议题,算法也应该是一个重要的社会议题。因此,本书最初的关注点便是:从社会科学的角度重新审视算法究竟是“什么”,算法究竟是“做”什么的,怎么“做”的,以及它们做什么所必需的“构成条件”是什么?算法是“如何”作为情境实践的一部分的,它们是如何在社会环境下“运作”的?我们如何才能在不将其只归结为算法工程师的编码技术活动的前提下,对算法进行富有成效和批判性的研究?想要回答以上一系列焦点问题,需要我们从社会科学的视角出发,去批判性地思考算法的本质,探索算法的社会性意义。
从社会学研究的学术传统来看,自默顿创立“科学—技术—社会”(STS)框架开始,对技术和社会的关系探讨陷入多学科的审视与争论之中,相比于自然辩证法对技术的探讨,社会学的主流研究更侧重关注社会结构、社会关系和社会行动有关的议题,有针对性地对技术展开分析的并不多见(邱泽奇,2017;夏保华,2015;李三虎,2015)。因为在社会学经典理论家们的思想脉络与理论传统中,其更多地将技术作为社会构成要素,比如马克思主义研究传统会探讨技术对推动工业生产力的作用,关切技术被政治渗透之后是否会加剧社会的不平等(马克思,1975);韦伯主义研究传统对技术的态度,则是更多关注其对社会的理性化程度的影响(韦伯,2010);而涂尔干的理论思想,可能会更关注技术对社会团结的作用程度(涂尔干,2000);等等。于是,很长一段时间内,技术往往成为研究者讨论社会学经验研究中主要议题(如社会分层流动、社会关系网络、劳资关系等)的“背景”或限定因素:更常见的是,经验研究者往往更重视技术的逻辑、新特征对社会秩序、社会关系转变发挥的不可忽视的作用,但是对技术本身的理解与分析却十分有限。
这样的思维定式也深深影响着笔者的研究取向:博士期间,笔者曾做过平台公司对外卖骑手劳动过程控制的研究,本着劳动社会学的理论脉络探讨数字化时代劳资关系的变化(赵璐、刘能,2018)。在研究展开的具体讨论中,我们已经将资本控制劳动力的方式指向新的技术系统,但在分析时常常感到困惑,将技术系统完全转译为管理方式的工具是否合适?当学界和媒体报道骑手困于“系统”[1]中时,“系统”究竟是如何运作的?它们真的只能沦为资本逐利的效率工具吗?于是笔者的研究取向开始发生转移,试图探索平台公司隐匿在背后的技术——人工智能技术。准确地说,是以大数据分析、机器学习(深度学习)算法为核心的技术程序/系统。
已有的社会学经验研究已经在传统生产技术、信息化技术应用与社会变迁等议题探讨中做出了相当多的努力与尝试(张茂元、邱泽奇,2009;邱泽奇,2018,2019)。将技术探讨从技术决定论逐渐纳入“应用”的社会情境论中,观测技术在引进组织、部门之间应用过程中的组织结构变迁,其所引发的组织文化的变迁(任敏,2012),传统技术协调整合(张茂元,2007),技术应用对农村产业化的影响机制与社会秩序重塑(张樹沁,2018)等。我们能看到在人类发展的历史进程中,技术无论是在农业社会还是在工业社会中都扮演了至关重要的角色,尤其是人类进入网络社会(卡斯特,2001)后,信息化技术的应用使得生产和生活的边界越来越模糊。
面对大数据、人工智能技术的时代,需要重新审视技术,探寻和关切数字技术如何以特定的方式构建了怎样的社会,甚至是怎样重塑了人类生命有机体的意义。我们会发现技术与社会的关系更为紧密,技术—人—组织的关系多重复杂又呈现巨大张力。
人工智能技术设计、应用的社会情境中会纳入多层次行动者,不仅仅是技术的开发者、组织内外的应用者,组织与社会环境等诸多因素也会形成多层次的“关系组合”机制。比如,人工智能技术需要依赖人类的数据痕迹(数据“输入”),依靠机器学习算法学习人类的规则(数据“计算”),持续输出预测、判断(数据“输出”),不断循环往复训练机器,形成类似人类的认知与推理能力的智能机器(AI)。这里面涉及数据收集的权限、算法规则的体系构建、新数据的不断输入和输出,意味着技术实践会卷入不同层次的行动者,谁是数据生产者、谁是数据拥有者、谁是算法操控者,谁又是数据接收者?技术与社会的关系紧密性在于,技术的设计、应用、重新设计不再是线性发展,而是持续性的循环,甚至是动态、实时性地发生变化。对技术的理解也不能只针对静态的技术制品,更需要放在技术—组织—个人—环境持续的社会互动中。
所以,社会学需要面向数字化时代重新探讨技术议题,尤其是需要对技术做展开性分析的经验积累,因为技术要素、技术过程、技术的层级结构都是不可缺少的关键分析变量(Arthur,2009),组织的形态与属性都与其支撑的技术系统密切相连,并影响组织内外成员的态度和行为特征(Trist &Bamforth,1951)。于是,本书希望在人工智能技术设计、应用的过程中,切入最核心的技术要素:算法,因而得以从社会学的角度探寻一个实证研究的路径,展开对算法实践过程的剖析,并回答如下研究问题:算法实践是如何开展的?哪些社会行动主体参与到算法实践和算法建构过程中?参与算法实践和算法建构的逻辑、策略及影响机制是什么?算法实践这一社会建构过程重组了怎样的信息传播秩序?并在初步回答上述问题的基础上,重新思考技术、权力、资本、人类需求的关系本质是什么,不断理解技术的内涵与社会意义。
(三)信息分发平台的算法实践
正如AIphaGo是人工智能技术在围棋领域的应用一样,人工智能的算法在互联网各大搜索引擎、新闻、音乐、电商、短视频等信息消费领域应用甚广,成为预测分析内容相关性、帮助用户快速获取信息的途径,逐渐获得社会大众的广泛认可(Steiner,2013;Anderson,2011;Latzer,2015;Gillespie,2014;Pasquale,2015)。可以说,开展机器学习算法实践的网络信息分发平台进入人们日常生活的时间更早,也意味着消费领域(toC端)的大数据积累更为完善,人工智能技术也更为成熟。尤其是以今日头条、D平台与K平台为代表的信息分发平台,更是利用个性化推荐算法成为国内人工智能在信息分发领域的国民级应用(App);同时,信息分发平台[2]的算法实践涉及内容分发的不同环节(辅助创作、审核、分发、推荐),算法实践的场景更为多元,与社会行动主体互动的场域也更为复杂。
本书经过对K平台公司这一信息分发平台开展的算法实践进行案例研究,再次揭示并证明数字化时代的机器学习算法实践与平台组织交织融合,呈现一个复杂、动态且协同演化的过程:平台作为信息分发的核心节点,也作为技术文化建构的基础设施[3](Gillespie,2010),在持续进行算法实践的过程中将不同市场主体(所有权公司、广告商、电商等)联系起来,也将劳动者、消费者、政府监管部门纳入与技术系统的互动当中,共同参与了信息秩序的建构。
这是一种怎样的技术能力,能在海量信息中重新组织,进行分类、排序并将其呈现在我们面前?我们至少能确信,算法在商业平台公司的利用下对信息进行分发,向用户提供最相关、最喜欢、最有趣、最热门的商品、书籍、电影等,让用户能在其平台持久地观看、购买、消费。但是这种算法实践逻辑是谁的逻辑?如果从算法(模型)的设计和应用的过程来看,一定是人类主观能动性的产物,体现设计与开发者的目的与利益。或者说,算法考虑的是公司的还是用户的利益与需求?又或者说,谁才是最大的受益者?
各类平台公司起初都会宣称自身作为平台只是中介角色,面对信息过载的互联网,需要有一套效率机制主导的智能信息过滤方式(技术)帮助用户高效分发信息(获得交流、互动或者销售的机会等)、快速获取所需的信息,所以算法根据“你喜欢什么,就会精准推送什么”,算法的作用就是帮助用户在数字世界中找到自己想要的生活。算法所在的技术系统只是承担这种“连接”的功能。这么看,算法实践的逻辑应该是用户自身需求的逻辑。
那平台公司为什么要开展算法实践呢?平台公司的出发点是提高用户黏性,获取更多用户的注意力并获得盈利,而算法是更有利于获取用户更多时间的手段。所以,从商业公司组织的角度出发,平台的商业逻辑一定在算法的逻辑里,任何互联网产品的本质都是商业模式,所以技术引擎——算法是实现平台的商业价值的有力抓手。
但是,平台公司—用户需求不可能简单地在算法推荐的逻辑下达成利益互惠的共识,算法分发机制已经产生了一系列负面影响,需要引入政府监管、社会伦理的逻辑。过去的几年里,正是算法的精准推送导致很多内容低俗化并被公众所诟病(比如低俗、标题党、擦边色情信息更容易吸引用户眼球,越多的点击,算法就会认为这是用户希望看到的,会不断推送),算法被舆论推上风口浪尖,政府监管的压力也随之到来,平台公司不可能以一个技术中立的身份对外宣称“算法塑造的是用户想要的世界”,不得不改进技术措施,比如“加入人工审核,把关算法识别、推荐内容的质量”、研发设计新的算法模型去识别内容,让内容更安全、更优质。在个性化推荐算法的运行过程中更是增添很多过滤机制,将原有算法模型的参数进行修改,对劣质内容的比重进行降权。这时候算法的运行逻辑已经有了多重的社会期待。
此时此刻,算法早已不是一个存在于技术系统的技术配置或者作为计算机程序的关键环节来理解。算法实践不仅仅是基于工具理性的效率逻辑,更具有社会性、制度性的逻辑。本研究从这样一个前提出发——算法实践是社会建构的产物:平台公司扮演中介角色,参与建构算法实践,塑造人们的信息世界,当人们与特定的平台界面互动时,也参与了算法实践的建构。所以,算法应该作为一个存在于一系列社会过程之中的对象来理解。算法不可避免地以社会期待的方式来建构,甚至是存在于社会系统中的多方力量竞争与博弈的结果。算法的存在、应用、设计、重新设计都是社会力量的产物,受到用户群体、商业、政治的议程影响。