1.2.2 长尾效应
尽管数据在快速增长,但目前大部分个性化推荐系统还是更注重热门的、受众广泛的项目的推荐,忽略相对冷门的、非主流的项目的推荐,这就是著名的“长尾效应”(long tail effect)[2] 的表现。长尾效应是信息不对称的重要表现:少量的数据占据了大多数的流量,大部分数据的使用率相对较低。在商品供需领域,长尾效应表现为商品提供方很难找到合适的商品需求方,而商品需求方也很难找到真正需要的商品。著名的帕累托法则(Pareto principle)[3] 能较好地解释长尾效应。
[2] 长尾效应是由长尾(long tail)一词引申而来的,是克里斯•安德森(Chris Anderson)在2004年10月发表的《长尾》一文中最早提出的,用来描述诸如Amazon和Netflix之类的网站的商业模式。
[3] 帕累托法则,又称二八定律,是意大利经济学家维尔弗雷多•帕累托(Vilfredo Pareto)于1897年发现的一个规律:任何一组事物中重要的因素通常只占20%,其余的80%尽管是大多数的,但是次要的。帕累托法则在经济学、管理学领域具有广泛的应用。
某电商平台的销售长尾效应曲线如图1-4所示,纵坐标表示商品需求量,横坐标表示按热门程度进行排序的商品种类。从图中可以看出,曲线的头部表示热门的商品,它们的数量相对较少,但单个商品的需求量较大;冷门的商品分布在曲线的尾部,单个商品的需求量小,但数量较多,反映在平面坐标轴上就像一段长长的尾巴,所以这种效应被称为“长尾效应”。
图1-4 某电商平台的销售长尾效应曲线
但是,随着电子商务的兴起,信息的传播变得更加快捷、高效。通过各种互联网渠道的传播,商品的销售不再受实体店销售空间的限制,几乎所有的商品都有机会售出,那些被实体店忽略的非主流商品引起人们的关注,冷门商品中也会出现爆款,使得企业逐渐关注那些零散的、非主流的商品所占的市场份额,不断通过差异化的销售方式实现企业盈利的最大化。处在长尾效应曲线尾部的商品,可能存在更高的用户黏度。如何为大量的、具有不同需求的用户提供非主流的商品呢?其关键在于“个性化”。为让用户获得符合自己兴趣爱好的小众、非主流的商品,需要使用优秀的个性化推荐系统。
传统的推荐算法一般将用户的评价作为主要的用户特征,因为热门商品受到大部分用户的关注,被购买的次数和收到的评价较多,所以最后的推荐结果经常集中在热门商品中。这样的推荐算法无法体现个性化的特性,得到的结果也并不令人满意。在实际应用中,很多行业的热门商品不一定是利润最高的商品,这就需要采取推荐算法针对用户给出更加精准的个性化推荐。
在推荐系统中,长尾问题不仅包括长尾用户,还包括长尾物品,因此采取什么推荐算法,实现对长尾物品的推荐,是一个非常具有挑战性的问题。本书将引入热门物品惩罚因子,降低热门物品的评分权重,缓解长尾效应。