网络科学视角下的推荐系统研究
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.1 研究背景与意义

1.1.1 研究背景

互联网、物联网、电子商务以及社交网络的应用,使得全球数据和信息呈爆炸性增长。Facebook的用户每天在网站上点击“赞”或者发表评论大约三十亿次;Google子公司YouTube每月有多达8亿的用户访问,平均每一秒就会有一段1小时以上长度的视频被上传;Twitter用户每天发布的微博总量超过4亿条,Twitter的信息量几乎每年翻一番。IBM的研究称,整个人类文明所获得的全部数据中,有90%是过去两年内产生的。另一方面,生产力的提升、供应链的改进、持续增加的商品和服务丰富了用户的选择。但这不可避免地引发了信息过载问题。用户面临着商品花样繁多、信息飞速增加、广告铺天盖地、科技迅猛发展、个人接受能力严重“超载”的情况。从商业角度来说,用户在浏览大量信息之后,才有可能找到满足需求的商品,过多无关信息的浏览导致信息使用效率下降、商品服务选择难度增加,甚至过多的负面信息影响正确选择,乃至带来错误选择。

信息检索与信息过滤是目前解决信息过载问题的主要方法。信息检索,是指按一定方式将信息组织和存储起来,根据用户输入的信息需求,查找出所有相关信息的过程。信息检索将静态信息与用户需求相匹配,不支持用户动态的需求变化。信息检索技术运用广泛,如Google、百度等搜索引擎。然而,信息及其传播是多样化的,用户对信息的需求也是多元化和个性化的,以搜索引擎为代表的信息检索系统对不同用户输入的相同关键字却输出相同的搜索结果。这显然不能满足用户的个性化需求,因而无法很好地解决信息超载问题。信息过滤,则是指根据用户提供的需求信息,从动态信息中发掘用户感兴趣或潜在感兴趣的信息。信息过滤技术被广泛采用于推荐系统中。推荐系统能实时与用户交互,根据用户以往的历史记录,挖掘用户的兴趣爱好并使用模型进行量化,结合用户的近期行为动作,向用户提供个性化的信息和商品服务,然后根据与用户交互的反馈结果修正和优化其推荐模型,帮助用户在海量的信息中高效地获取有价值的信息。信息爆炸、大数据和人工智能技术发展以及用户的个性化需求,都促进了推荐技术和推荐系统的快速发展。

所谓推荐系统,就是根据用户的偏好推荐其最有可能感兴趣的产品和服务。和搜索引擎相比,推荐系统通过研究用户的兴趣偏好进行个性化计算,由系统发现用户的兴趣点,从而引导用户发现自己的信息需求。一个好的推荐系统不仅能为用户提供个性化的服务,还能和用户之间建立密切关系,让用户对推荐产生依赖。推荐系统现已广泛应用于很多领域,其中最典型并具有良好发展和应用前景的领域就是电子商务领域。在亚马逊、淘宝、京东(如图1.1所示)等电子商务网站,都设有“猜你喜欢”“为你推荐”等专区,根据用户的浏览和购买行为记录推荐相关商品。2015年淘宝的“双十一”购物节期间,个性化推荐算法使得用户数和页面访问量达到前一年的2~3倍。美国电影租赁公司Netflix宣称推荐系统每年为他们节省10亿美元的开支。亚马逊网站20%~30%的销售是由推荐系统带来的。

图1.1 京东“为你推荐”专区

在新闻平台领域,过去主要是新浪新闻这类中心化的内容平台,现在以今日头条为代表的新闻App根据用户偏好推送不同内容的定制化新闻,推动了整个行业向个性化推荐转型。在新兴的短视频领域,以抖音和快手为代表的App以推荐为流量分发的主要手段。在互联网金融领域,各大平台也开始主推针对个性化、定制化的投资推荐等金融服务。

传统的协同过滤(Collaborative Filtering,CF)推荐的原理是根据系统中用户对于项目的评分计算出相似度,进而提供用户可能感兴趣的推荐项目或商品。然而历史研究表明,在大型的电子商务系统上,用户和商品的数量都数以亿计,而有用户评分的项目只占了项目总数的百分之一左右。另一方面,互联网用户数量也出现了爆炸性的增长。2019年2月28日,中国互联网络信息中心发布的第43次《中国互联网络发展状况统计报告》显示,截至2018年12月,中国网民规模已达到8.29亿,互联网普及率增至59.6%,跟2017年年底相比提高了3.8个百分点。因此,不可避免地会出现数据稀疏性、冷启动等问题。

当今互联网中,社交化应用的相关内容越来越多,社交网络异军突起。Facebook创立于2004年2月4日,2017年第二季度,Facebook的月活跃用户首次超过20亿。微信是腾讯公司于2011年1月21日推出的一个为智能手机终端提供即时通信服务的免费应用程序,截止到2016年第二季度,微信已经覆盖中国94%以上的智能手机,月活跃用户达到8.06亿。由此可见,社交网络在全球迅猛发展,对商务、营销也带来了革命性的影响。美国著名的尼尔森调查机构针对“影响用户相信某个推荐的因素”这一问题进行了探索研究,结果表明,大约有90%的用户倾向于信任来自朋友的推荐建议。越来越多的学者开始研究社交信任背景下的推荐算法,研究结果表明,将社交信任引入推荐领域能够明显改进推荐的效果。然而有一个问题不得不提,互联网环境下用户数量庞大,用户间的信任关系非常稀疏,如何从网络科学的角度构建用户信任关系是解决问题的关键。本书考虑到互联网、电子商务、社交网络发展,从网络科学视角,结合社交信任等因素,研究推荐系统的相关问题。

1.1.2 研究意义

协同过滤推荐的研究有重要的理论意义。研究表明,即使在用户和商品属性未知的情况下,用户对某一商品的选择与否也不是随机发生的。用户非随机性选择的影响因素是社会心理学、市场营销学等学科的研究热点。协同过滤推荐算法作为推荐领域使用最广泛的推荐算法之一,既要保证推荐结果高精准,又要具备对于复杂多变的网络环境的适应能力。社交网络、信任及其相关推荐的研究涉及多个研究领域的理论和技术。例如,社交网络、信任网络本身可以被视为一个异质的信息网络。异质信息网络分析和挖掘技术的相关理论和技术能够用于社交网络的分析挖掘中。标签的广泛应用,也有助于进行更准确的挖掘、更个性化的推荐。为了利用丰富的上下文信息,如何通过矩阵分解、泊松分解、排序学习、表示学习和深度学习等技术实现更精准的推荐也是值得研究的热点。

协同过滤推荐的研究也具有重要的实际意义。随着社交网络的出现和流行,研究者发现用户在选择商品时更倾向于信任朋友推荐的信息。从企业角度来说,让企业的产品信息从众多信息中脱颖而出,得到广大用户的关注,对产品的宣传非常关键,推荐系统有利于解决这一问题,因而,被越来越多的电子商务服务商采用,如亚马逊、Half.com、CDNOW、Netflix以及雅虎等。研究表明,推荐系统不仅有助于增加企业网络销售量(亚马逊有20%~30%的销售来自推荐系统),促进交叉销售,而且能提高用户的忠诚度,有效地留住用户。对企业而言,将社交因素引入电子商务推荐过程能够缓解因信息安全、产品质量等负面信息带来的信任危机,减少用户对电子商务网站购物的顾虑,提升用户体验,进而增加企业网络销售量;挖掘用户潜在兴趣爱好能够为用户更好、更快地提供音乐、应用程序等符合用户需求的推荐。

从用户的角度看,尽可能花更少的时间得到对自己有价值的信息,节省了用户在网上浏览的时间,一定程度上缓解了大批量的垃圾信息给用户带来的困扰。而且,推荐系统通过商家的主动推荐,往往能起到引导用户消费的作用,提升用户的使用体验。推荐系统的任务是将用户和信息联系起来,一方面帮助用户发现有价值的信息,另一方面使信息展现在有需求的用户面前。通过结合用户信任和兴趣对网站中的用户行为数据进行分析,能够更加敏锐、全面地感知用户的兴趣,更好地将个性化的信息推荐给用户,提升用户体验。