第1章 概述
1.1 研究背景与意义
1.1.1 研究背景
20世纪70年代以来,互联网技术迅猛发展,全球数据量通过人们的日常生活和工作快速增长。根据国际数据公司(international data corporation,IDC)统计,近3年来,全球数据量以20%左右的年增长率增长,预计到2024年底,全球数据总量将达到142.6ZB[1],其中大部分数据来自图片、视频和音频,百度、谷歌等互联网“巨头”每天处理的数据规模都在PB级。全球数据量增长趋势如图1-1所示。
[1] ZB是数据的基本单位。数据的基本单位按照从小到大的顺序分别是bit、B、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB,其中1B=8bit,其余相邻单位的换算系数为210,即1024,如1KB=1024B。
图1-1 全球数据量增长趋势
随着我国网民规模急速扩大,我国数据产生量占全球数据产生量的比例越来越大。2023年8月,中国互联网络信息中心(China Internet network information center,CNNIC)发布的第52次《中国互联网络发展状况统计报告》显示,截至2023年6月,我国网民规模已达10.79亿,互联网普及率达76.4%,较2022年12月提升了0.8个百分点。其中,手机网民规模达10.76亿,网民使用手机上网的比例达99.8%。近年来我国网民规模和互联网普及率如图1-2所示。
各类互联网应用用户规模稳步增长,其中短视频、网络购物应用比2022年12月分别增长1.4%和4.6%;搜索引擎应用比2022年12月增长4.9%。
图1-2 我国网民规模和互联网普及率
由此可见,越来越多的网民通过线上购物、线上阅读、分析决策等方式,实时享受着互联网带来的便利,同时他们的个性化需求也不断增加。然而,随着互联网技术和电子商务的迅猛发展,数据量迅速增加,而且种类繁多、结构复杂、质量参差不齐,导致人们难以在海量的数据中发现自己真正需要的信息,甚至在面对浩如烟海的信息资源时,不能明确自己的需求,这就是著名的信息过载(information overload)和信息迷航(information loss)问题。为了解决上述问题,满足用户日益增长的个性化需求,很多学者和专家开展了卓有成效的研究,提出了多种有效的解决方案,具有代表性的解决方案是信息检索(information retrieval)和信息过滤(information filtering)。
信息检索又称为信息搜索,其作用是根据用户输入的搜索关键词,及时地将与关键词相关度高的信息反馈给用户。常见的百度、谷歌、雅虎等搜索引擎都可视作信息检索系统。传统的信息检索是基于关键词匹配的,要求用户在检索之前明确自己的需求,但现实中人们由于认知有限,对自己真正需要的信息不太可能全都了解。此外,传统的信息检索还存在查全率和查准率不高的问题,如处理中/英文中一词多义或一义多词的情况,即尽管不同的用户输入同一个关键词,而且检索的目的不同,但检索的结果是相同的。例如,果农输入“苹果价格”检索,可能是为了了解水果市场中苹果的价格;电子产品爱好者输入“苹果价格”检索,可能是为了了解新款苹果手机的报价。针对信息检索存在查全率和查准率不高的问题,相关研究人员提出了智能检索与知识检索。智能检索利用同义词提高检索质量,并通过主题和上下文辅助检索。知识检索是在文本挖掘技术的基础上引入语义结构,将信息按特定的方式组织、存储、提取,形成知识,通过知识进行更精准的检索。
信息检索在一定程度上提高了用户获取资源的效率,改善了用户体验,缓解了信息过载问题。然而,随着大数据技术的发展,信息过载问题日益突出,已有的信息检索方法难以满足用户的个性化需求,于是信息过滤技术出现了。信息过滤技术根据用户的兴趣爱好,对信息资源进行筛选,只将符合用户兴趣的资源呈现给用户。个性化推荐系统(personalized recommender system,PRS)作为信息过滤的一种重要应用,已被广大电子商务系统和个性化网站所采用。
个性化推荐系统通过收集用户的基本信息和行为信息,为用户进行画像,挖掘用户的偏好,然后对用户可能感兴趣的内容进行排序,将排名靠前的内容推荐给用户。与搜索引擎不同,个性化推荐系统不需要用户提供明确的需求信息,而是通过分析用户的行为,在海量信息中筛选用户可能感兴趣的信息,并主动地将这些信息推送给用户,推送的内容可以是一件商品、一部电影、一本书或一条新闻等信息。针对不同的用户,个性化推荐系统会根据其偏好和需求为其推荐不同的信息,做到“千人千面”。
综上所述,个性化推荐系统可利用人工智能技术从大量用户和产品的数据/信息中挖掘用户和产品潜在的匹配关系,为用户提供精准的推荐服务,协助用户做出决策,提升产品的商业价值。个性化推荐系统的作用如图1-3所示。
图1-3 个性化推荐系统的作用
在应用领域,许多“龙头”企业投入大量的人力和财力进行个性化推荐技术和个性化推荐系统的研发,国内外大多数的大型商务系统和个性化网站都不同程度地使用了形式各异的个性化推荐系统,并取得了良好效果。例如,京东、当当、淘宝、天猫等电子商务网站,Facebook和微博等社交平台,都在原有业务的基础上不同程度地增加了推荐功能,把具有针对性的信息推送给用户,帮助用户快速检索需要的信息、发现潜在的兴趣爱好。事实表明,推荐系统的使用显著提高了用户的满意度和用户对平台的黏度,获得了可观的经济效益。
众多优秀的个性化推荐系统使用了研究人员提出的推荐算法,其中协同过滤(collaborative filtering,CF)算法因利用了群体智能脱颖而出,获得学术领域与应用领域的广泛关注,是目前应用最成功、最广泛的个性化推荐技术之一。