2.3 搜索引擎的排序算法
互联网上能提供搜索服务的网站有很多,同样的关键词在各网站搜索引擎进行搜索,得到的是不同的排序结果,主要是由于每个搜索引擎采用的排序技术都不尽相同。搜索引擎的排序有多种算法,其中较常用的是词频位置加权排序算法和HITS算法。
2.3.1 词频位置加权排序算法
词频位置加权排序算法是从整个网站上的文字位置上与出现的次数进行排序。
位置:不同的网站关键词在内容与标题里面出现时,其搜索的结果差别非常大,搜索引擎认为标题能表现出一个网站是干什么的,一篇文章在标题、段首等位置出现关键词中所获得的权值要远比文章里面出现关键词多得多。所以,网页标题中是否含有关键词至关重要。
出现的次数:一个词在一个网站里或某一个页面里出现的次数越多说明它的相关性越强,所获得的权值就会越大。
词频位置加权排序算法的缺陷在于只注重词在网站的表现而去给某个网站排名,这是早期的搜索引擎所使用的基础算法,由于容易引起作弊,现在已不再单纯使用这样的算法了。
2.3.2 HITS算法
HITS算法也叫超链接分析算法。按照HITS算法,用户输入关键词后,算法对返回的匹配页面计算两种值,一种是枢纽值,另一种是权威值。这两个值互相依存、互相影响。枢纽值,指的是页面上所有导出链接指向页面的权威值之和。权威值,指的是所有导入链接所在页面的枢纽值之和。
HITS算法会提炼出两种比较重要的页面,即枢纽页面和权威页面。枢纽页面本身可能没有多少导入链接,但是有很多导出链接指向权威页面。权威页面本身可能导出链接不多,但是有很多来自枢纽页面的导入链接。HITS算法是针对特定查询词的,所以被称为主题搜索。
HITS算法完全将网页的内容或文本排除在外,仅考虑网页之间的链接结构来分析页面的权威性,这与现实网络中的权威页面相比,其不科学性显而易见。由于它在查询阶段进行计算,而不是在抓取或预处理阶段。所以,HITS算法是以牺牲查询排名响应时间为代价的。也正因为如此,原始HITS算法在搜索引擎中并不常用。不过HITS算法的思想很可能融入搜索引擎的索引阶段,也就是根据链接关系找出具有枢纽特征或权威特征的页面。HITS算法及变种如图2-3所示。
图2-3 HITS算法及变种
2.3.3 李彦宏的超链分析专利
百度创始人李彦宏在回国创建百度之前就是美国顶级的搜索引擎工程师之一。据说李彦宏在寻找风险投资时,投资人曾询问其他3个搜索引擎业界的顶级技术专家一个问题:“要了解搜索引擎技术应该问谁。”这3个被问到的专家中有两个回答:“搜索引擎的事就问李彦宏。”由此投资人断定李彦宏是最了解搜索引擎的人之一。
这其实就是现实生活中类似于链接关系的应用。要判断哪个页面最具权威性,不能光看页面自己怎么说,还要看其他页面怎么评价。
1997年,李彦宏就提交了一份名为“超链文献检索系统和方法”的专利申请,这比Google创始人发明PR要早得多,不得不说这是一个非常具有前瞻性的研究工作。在这份专利中,李彦宏提出了与传统信息检索系统不同的基于链接的排名方法。
除了索引页面之外,这个系统还建立一个链接词库,记录链接锚文字的一些相关信息,如锚文字中包含哪些关键词,发出链接的页面索引,包含特定锚文字的链接总数,包含特定关键词的链接都指向哪些页面。词库不仅包含关键词原型,也包含同一个词干的其他衍生关键词。
根据这些链接数据,尤其是锚文字,计算出基于链接的文件相关性。在用户搜索时,将得到的基于链接的相关性与基于关键词匹配的传统相关性综合使用,得到更准确的排名。
在今天看来,这种基于链接的相关性计算是搜索引擎的常态,每一个SEO人员都应该知道。但是在1997年,这无疑是非常创新的概念。当然现在的搜索引擎算法对链接的考虑,已经不仅仅是锚文字,实际上要负责得多。