搜索引擎营销向导
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第1章 你真的了解搜索引擎吗

1.1 什么是搜索引擎

1.1.1 搜索引擎的概念及发展

搜索引擎,一般未经特别说明是指全文索引引擎,即收集了互联网上千万到几十亿个网页并对网页中的每一个文字(关键词)进行索引,建立索引数据库的网页系统。国际最大的全文搜索引擎是Google(http://www.google.com),国内则是百度(http://www.baidu.com)。

当我们输入某个或某几个关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法(通常根据网页中关键词的匹配程度、出现的位置/频次,链接质量等)计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户。

搜索引擎从本质上来说不是“新概念”,想象一下我们每个人是如何在图书馆查找图书的?更进一步,是如何在电子图书馆查找某篇期刊的某篇文章(或某段文字)的?而如果整个互联网被看做是一个“图书馆”呢?

所有搜索引擎的祖先,是1990年由Montreal的McGill University三名学生(Alan Emtage、Peter Deutsch和Bill Wheelan)发明的Archie。尽管当时还没有WWW(World Wide Web),但网络中文件传输已然是非常频繁,大量的文件散布在各个分散的FTP主机中,查询起来非常不便,因而Alan Emtage等人想到了开发一个可以用文件名查找文件的系统,即Archie。Archie是第一个自动索引互联网上匿名FTP网站文件的程序,但它还算不上真正的搜索引擎。Archie是一个可搜索的FTP文件名列表,用户必须输入精确的文件名搜索,然后Archie才会告诉用户哪一个FTP地址可以下载该文件。

到了1994年,Stanford University的两名博士生——美籍华人Jerry Yang(杨致远)和David Filo共同创办了一个当时算是数据检索系统的Yahoo。随着访问量和收录链接的增长,Yahoo目录开始支持简单的数据库搜索。但因为Yahoo的数据是手工输入的,所以不能真正被归为搜索引擎,可以认为是一个可搜索的目录。Yahoo中收录的网站,因为都附有简介信息,所以搜索效率明显提高。

同年,Washington大学的学生Brian Pinkerton开始了他的小项目——WebCrawler(Brian Pinkerton Announces the Availability of Webcrawler)。1994年4月20日,WebCrawler正式亮相,它是互联网上第一个支持搜索文件全部文字的全文搜索引擎,在它之前,用户只能通过URL和摘要搜索。

1995年12月发布的AltaVista通过大量的创新功能使它迅速到达当时搜索引擎的顶峰。AltaVista最突出的优势是它的速度,它还是第一个支持自然语言搜索的搜索引擎(它支持高级搜索语法,如AND、OR、NOT等)。用户可以用AltaVista搜索Newsgroups(新闻组)的内容并从互联网上获得文章,还可以搜索图片名称中的文字、搜索标题(Titles)等。AltaVista也声称是第一个支持用户自己向网页索引库提交或删除URL的搜索引擎,并能在24小时内上线。

当前世界最大的搜索引擎Google在1998年才正式上线。在此之前,Google只是Stanford大学的一个小项目——BackRub。1997年年底,在Sergey Brin、Scott Hassan和Alan Steremberg的共同参与下,BachRub开始提供演示版本。1999年2月,Google完成了从Alpha版到Beta版的蜕变。Google公司则把1998年9月27日认做自己的生日。Google在Pagerank、动态摘要、网页快照、DailyRefresh、多文档格式支持、地图股票词典寻人等集成搜索、多语言支持、用户界面等功能上的革新,再一次永远改变了搜索引擎的定义。在2000年数据库(容量)升级后,并借被当时全球最大的门户网站Yahoo选做搜索引擎的东风,一飞冲天。

2000年1月,两位北大校友、超链接分析专利发明人、前Infoseek资深工程师李彦宏与好友徐勇(加州伯克利分校博士后)在北京中关村创立了百度(Baidu)公司。初期类似于Google,为其他门户网站(搜狐、新浪、Tom等)提供搜索引擎服务。2001年8月发布Baidu.com搜索引擎Beta版,2001年10月22日正式发布Baidu搜索引擎,专注于中文搜索。当时的特色功能包括百度快照、网页预览/预览全部网页、相关搜索词、错别字纠正提示、mp3搜索等,而后陆续发展的“贴吧”、“知道”、“百科”等中文搜索特有的产品功能大受市场欢迎,并一举奠定了整个中文搜索的产品格局(此后的其他中文搜索引擎均大致沿用百度的产品标签分类体系)。

1.1.2 搜索无所不能

搜索这个功能原本是广泛内在需要的——只要内容多了,不适合“导航”了,就有了搜索(查找)功能的必要。如文档中的“查找”,邮箱中的“查找”,甚至操作系统中的“开始”搜索程序和文件,如图1-1所示。

图1-1

设想一下,“搜索”是不是在我们的生活中随处可见,随时想用。我们可能想“查找”一个地方,“找寻”一个人,“回忆”一件事——这些都可以算做“搜索”。

而在网络时代,搜索行为又很容易体现为对搜索引擎的使用。搜索引擎可以帮助我们搜索什么,怎样搜索的。

1.网站导航

对于某些事先并不知道网址的某些或某个网站,可以通过输入相关的关键词来实现导航的目的,如图1-2所示。

图1-2

另外一种情况是,知道网站名称,却记不住或不想输入网站域名来访问,搜索引擎也会帮助做“导航”,如图1-3所示。

图1-3

其实“网站导航”是搜索引擎在发展初期所承载的重要功能,在没有搜索引擎之前,是门户繁荣的时代,而所谓“门户”,也意味着曾经担负着互联网“入口”的作用,门户会以“目录”的方式将各行各业、各类别的网站加以“收录”,方便访问者查找、选择、浏览。网站数量的增加、个性化查找的需要及其他原因使得这种本来就有的“网站导航”需求以搜索的方式被满足。

2.获取电子资料

对于存储在网络空间的电子资料,搜索引擎可以帮助我们找到提供这些资料的链接、软件、MP3、电子书、电影等,如图1-4和图1-5所示。

图1-4

图1-5

当然,从本质上讲,这类对电子资料的搜索仍然属于“导航”性质——搜索引擎带领你到有明确目的的、可以提供对应信息的地方。

3.寻求答案

我们通过搜索引擎面对的并不仅仅是“冷冰冰”的网站或电子资料,还有可能来自于真实的人或事件之中的“鲜活”内容,这些内容能够解决我们遇到的某些问题。

比如关于某些名词或字的读法和解释,如图1-6所示。

图1-6

比如关于某类文书格式或范文的参考,如图1-7所示。

图1-7

比如我们可以将搜索引擎作为论文或作文素材的查询工具,通过直接对某类内容的描述来获取相关参考内容。当然,过度的“参考”会演变为“抄袭”。而与此同时,搜索引擎也提供了“反抄袭”核查功能,将大段的文字输入到搜索框,如果出现有多个匹配结果,则可以判断为抄袭。

除了直接“指名道姓”式的查找,更有“技术含量”的问题解答获取方式是探索式搜索和拼凑式搜索。搜索者可能通过某个场景的某个片段了解到某个碎片式信息,再通过一步步的搜索来进行“还原”,在搜索过程中深化对问题的理解,并根据可能产生的新的问题继续求解。

有一个真实的故事:有一个朋友,为了希望获得搜索结果以证明葡萄可以用来减肥来安慰自己为了“减肥”而多吃葡萄,进行“葡萄 减肥”的搜索(遗憾的是结果没有获得预期的证明),奇妙吗?

对于这种“寻求解答”类的搜索,曾经有人有过真实的测试:Mozilla基金会主席,自己用Safari而不是Firefox的浏览器,因为需要在5台不同的电脑上工作,而当时Firefox没有书签同步功能,所以开发了Xmarks。开发者当时的想法是,用户收藏网页相当于一次投票,可以做出一个更好、更智能的搜索引擎。请了可用性专家和用户测试,才发现“人们搜索(更多的)是想找到特定问题的答案,而不是得到某个主题领域内的一组权威链接(这种情况属于网站导航)”,且“惊讶”地发现做搜索测试时,人们在电脑前坐下来第一件事就是搜索自己的姓名。

4.凑热闹

网络媒体出现的热点新闻、热点人物很容易引发相关粉丝或潜在关注者的搜索冲动。去了解这些人或事件的背景情况、当前的发展动态,甚至通过搜索进一步参与讨论。

假设在某一热点事件中出现了某个名人和某个不知名的人物,那后者很容易被作为关键词进行搜索。

类似“搜热闹”的对八卦类信息的搜索在中文搜索引擎领域数不胜数,很多日常突然发生的热门搜索都与此相关。

5.买东西

随着网购市场的发展,搜索引擎在“买东西”方面也很有帮助。可以用来搜索产品的基本信息、价格、评论,甚至直接搜索后下单购买。

曾经涌现过一些垂直类比较购物网站,但随着搜索引擎数据处理技术的提升,从使用方便的角度来看,用搜索引擎搜索已经基本可以满足查询比较购物信息的需求,如图1-8所示。

图1-8

甚至Google还有专门的“购物”频道,如图1-9所示。

图1-9

日常生活的不同时段也会使用到搜索引擎:白天,在工作中我们可能会搜索某个专业名词的意义或是翻译;晚上,看过某个电视剧不过瘾会搜索一下有没有在线视频可以回放或连续看几集;周末,假如你也看过《非诚勿扰》这个节目,可能想知道或已知道配乐师叫什么名字。因为有了搜索引擎,就一切皆有可能。

我们每天都在产生着数以亿计的搜索请求次数(根据艾瑞发布的《2010-2011年中国搜索引擎年度监测报告》数据显示,2010年第四季度,中国网页搜索请求量规模达640.2亿次),从找网站、找新闻、找视频、找图片,甚至“找房子、找工作、找装修”……所有你能够想到的,几乎一定会有网页提供相关信息。

几乎难以想象还有什么是不能搜到的。有一个搞怪的国外网站是这样的:它提供给任何有经常被问到可以轻而易举用搜索引擎“搜索”到答案的人们,这些人们可以把问题“粘贴”到那里,网站会自动生成一个链接,把这个链接发给提问人打开后就是“手把手”教提问人如何把问题输入到Google搜索框然后点击获取答案的过程视频。

还有一个笑话是这样的:某人某日去某个诊所,看到某医生正在上网,就对该医生说:“我可能得了痔疮。”医生说你先去交费,回来我给你检查。这人出门后察觉包没带,回去拿包时发现医生正在搜索“痔疮怎么治”。

搜索引擎是什么?答案很简单——搜索引擎是获取信息最重要的工具,没有之一!