2.3 社交信任
2.3.1 信任的概念
众所周知,信任其实就是“依赖”和“被依赖”的关系,汉语中的“信赖”也表达了这种相互信赖的关系。它具有真实、可靠等特点。但是,在推荐系统中,由于信任涉及的领域越来越多,所以缺乏一个明确、标准的定义。学科背景、环境、研究的出发点等稍有不同,信任的含义就不一样。信任在社会学、经济学、心理学、计算机网络等比较广泛的研究领域,通常都由不同的学者根据所处的背景、视角和面临的系统给出不同的定义。
在社会学领域,Gambetta从概率的角度将信任定义为:“如果一个人是可信的,就意味着他做出对我们有利行动的概率较大,所以考虑与他进行合作;相反,不可信的人,意味着有利行为概率不大,自然会减少合作的机会和本来有必要的沟通。”Azzedin则从信任本身就存在于不同的网络环境之中给出了定义:“信任是环境中一个实体对另外一个实体的能力抱有坚定的信念。而且,抱有的这类信念会随着时间以及实体行为等的变化而变化,并不是一成不变的。”
传统的CF推荐算法只考虑两者的相似度这一因素。缺少对推荐效果有着关键性影响的一个因素的考虑——即用户信任。通俗来讲,我们在购物时,售货员费尽口舌可能也难以使你从他那里购买一个东西。然而,来自同行的密友或者亲友的一句好的评价,就很容易让我们立刻掏腰包购买他们所推荐的东西。从中可以看出信任的商业价值以及对推荐的影响。
信任不仅可以丰富系统中原本稀疏的数据,还能减少不可靠用户的虚假推荐,产生更准确的推荐结果集,在一定程度上缓解数据稀疏的问题。O'Donovan J等人于2005年提出在传统的CF推荐算法中加入另一个较为重要的影响因素——信任,其算法思想的重点是先根据表现(评分)的信息找到系统中专业度较高的用户。一般而言,相较于系统中的一般用户,他们更加值得信赖。据此进行权威信任度的计算,再把他们当作新进入系统的用户的近邻给出推荐。通过这种方法来缓解冷启动问题。
2.3.2 社交信任的特性
网络环境中用户之间的信任关系有如下4个特性。
(1)传递性
不同实体之间的信任链条可能连续,也可能不连续。本书中对于传递性是否存在以及强弱程度的判断取决于两个实体之间有没有声明的也即显性的信任关系。互联网是一个大家庭,我们把这个网络中的用户视为一群朋友,相信他们之间的“信任传递”不会中断,然而强弱不同的情况是必然的。我们认为,兴趣爱好越相似,信任强度越高。Poblano系统、EigenTrust系统、Beth系统的信任模型一致认为:基于推荐的方式,更加有利于信任的传递。
(2)主观性
信任其实是一个实体从自身角度出发,对另一个实体的某个方面或者多个方面的能力的主观的综合判断。因此,不一样的实体就有自己不一样的判断标准。本书提到的主观性更具体地落地到互联网这一特定环境中来进行研究,主要是基于实体在环境中历史交易的评价或者历史行为的判定。
(3)动态性
实体总是处于某种信任关系的环境中的。一旦实体周围的事物或者环境氛围(比如实体本身、时间或者环境等)出现变动,必然会引起信任关系的变化。因此,要从动态的角度出发考虑信任关系,比如时间衰减或者针对系统中恶意攻击的处罚。只有这样,才能得到更加真实、可信度高的信任关系。
(4)可度量性
信任关系要能够采用一定的方式进行量化,但在推荐领域的信任的度量至今没有一个统一的标准。社会网络领域对社交关系中用户之间信任的度量研究较为深入,不少学者会拿来参考。除此之外,笔者认为信任还具有多样性、非对称等其他特性。
2.3.3 基于社交信任的个性化推荐
在传统协同过滤算法中,由于数据稀疏性导致的用户相似度计算不准确,影响了推荐结果的准确性。为此,一些学者提出将社交关系引入到协同过滤推荐算法中,用用户间产生的信任度替代传统协同过滤推荐中的相似度计算来寻找相邻用户。由于数据稀疏,信任度是通过用户间社会关系构成的社会网络的最大传播路径及用户间的最短路径计算得到的,只要用户和目标用户之间存在路径,就可以将其视为目标用户的相邻用户。实验验证结果表明,该算法优于传统的协同过滤推荐算法。然而,该算法忽略了用户之间的信任度为0但相似度高的情况。为了解决这一问题,部分研究者综合信任度和相似度考虑,如郁雪等加权信任度和相似度得到混合相似度替代传统协同过滤推荐中的相似度。史一帆提出了基于用户社交关系和项目标签的协同过滤推荐算法,并将与目标用户信任度大于0或相似度大于0的用户当作相邻用户。沈记全等提出了一种结合信任关系与情景上下文的旅游景点推荐算法,首先在传统的协同过滤算法的基础上以用户信任度代替相似度来解决数据稀疏性问题;其次引入用户情景上下文信息,更全面地反映用户的个性化需求;最后基于用户的信任度和上下文信息优化,建立一个推荐结果准确度更高的旅游景点推荐模型。
在推荐系统中,用户信任关系获取的过程和用户评分信息本身没有关系。用户一旦对自己愿意信任的朋友做出声明,抑或是打上了信任的标记,推荐系统便能够把握住这些信息为用户提供个性化的推荐。在推荐中引入信任关系具有如下优点。
(1)缓解无法对新用户进行推荐的问题
传统CF算法是基于用户历史购买记录进行推荐的,但系统中的新用户由于在系统中没有历史购买行为,因此对于在系统中出现的新用户束手无策。但是,引入信任网络之后,只要得知新用户信任关系网络中的用户,就能基于目标用户所信任用户的兴趣爱好做出推荐。
(2)信任关系能够弥补缺乏用户评分信息的不足
用户评分信息不足会影响用户相似度结果的精确性,进而直接导致推荐结果准确度的下降。这种情况下,信任度就可以成为用户相似度的良好补充,这样即使用户相似度不够精确,信任度也能发挥作用对计算结果进行调整纠正。
(3)传统CF算法会倾向于把用户引入某一较为狭窄的领域,而无法接触到其他新领域的项目
引入信任关系网络之后,通过信任值的影响,可以把其朋友自身兴趣偏好介绍给目标用户,这样有助于扩展目标用户的知识面,用户对推荐结果感到惊喜,能很好地刺激并满足用户潜在的消费需求。
(4)抵御互联网环境中存在的恶意攻击竞争以及欺骗
推荐系统实际应用场景中存在大量虚假评分出现的情况,影响推荐结果的真实性,最终影响用户体验。引入信任关系之后,这些虚假评分者作为陌生人,自然不会与我们的目标用户产生信任关系。这样他们之间的信任值为0,在使用组合推荐算法时,就能大大削弱虚假评分者的影响。所以,引入用户信任关系,一定程度上能够抵御网络环境中的恶意欺骗。
2.3.4 典型的基于信任的个性化推荐
作为当前商业应用领域较为成功的实际案例,eBay网的信任模型值得一提。eBay的信任模型基于这样的计算流程:双方对完成的每一次交易都可以互相给出评价。如果该评价是正面的,那么信任值在原有基础上加1,反之亦然;如果为中性评价,信任值则保持不变。此外,可以给出对某一次交易的简单注释,但这个行为不会影响信任值的计算。
Beth模型分为直接信任和推荐信任,对信任关系强弱、好坏与否的评价,完全是通过任务完成的概率来做出的,其中任务能否完成则综合考虑两方面的信任来给出结果。
EigenTrust模型的亮点在于更多地考虑了信任具有传递性这一特性,通过重点考虑直接信任来对该用户在全局中的信任值进行计算。该模型认为系统中两节点之间直接的关系、关联越多,其推荐越容易相信,但会有数据稀疏性的问题。
电子商务网站中用户之间的关系概括来说可以分为信任与不信任两种。目前不少网站里面,用户都可以自由地表达信任关系。但网络环境不同,信任的表现形式也不一样,主要有这样三种形式:收听、关注、添加好友。比如,在人人网中,主动加某个用户为自己的好友,我们称之为信任。而在新浪微博的系统中,是否关注系统中另外一个用户,成为他的“follower”(追随者),表明是否“信任”他。再比如,淘宝网的消费者在商品交易结束之后可以自由地对该商品给出自己的评价,甚至还可以添加好友,将自己的评价信息分享给自己感兴趣的其他好友。某些网站,例如Epinions网站,提供范围在0~1之间的离散值,供用户对好友信任度进行评分,而FilmTrust网站提供的离散值范围在1~9之间。Facebook、Google+、YouTube、Twitter和QQ等知名网站中的用户之间也具有信任关系。