1.3.2 历史与发展历程
从发展历程来看,搜索引擎大致经历了以下几个发展阶段。
(1)第一代搜索引擎:搜索引擎(Search Engine,SE)的出现起源于20世纪初期加拿大蒙特利尔市的麦吉尔大学,当时还没有万维网(World Wide Web,WWW),主要依靠文件传输协议(File Transfer Protocol,FTP)软件进行文件的共享,因此必须在内网上架设FTP服务器。同时,为了检测FTP数据,还必须有FTP客户端,那时候很多数据都是零散分布的,麦吉尔大学计算机学院的三名学生Emtage、Deutsch、Wheelan为了能够快速准确地查找到FTP服务器上文件的位置,制作了一个可以通过文件名对文件位置进行查询的系统Archie,该系统可以帮助用户在互联网上查找到指定的FTP文件的相关信息。对于当时的情况来说,这已经是最先进的搜索技术了,尽管在搜索的过程中,Archie需要用户提供准确文件名称才能对文件进行定位,但不可否认的是,它的出现开启了自动搜索网络信息资源的时代。毫无疑问,Archie成了搜索引擎的鼻祖[4]。
(2)第二代搜索引擎:第二代搜索引擎,同时也是第一代真正基于互联网的搜索引擎Lycos诞生于1994年,它以人工分类目录为主,代表厂商是Yahoo,特点是人工分类存放网站的各种目录,用户通过多种方式寻找网站,现在也还有这种方式存在。Lycos最早出现在Mauldin博士在卡内基梅隆大学的一个搜索项目,当时的Lycos搜索引擎被用于该校的数字图书馆工程。“Lycos”是Lycosidae(一种很善于捕捉猎物的狼蛛)的缩写。Infoseek也是同时期的重要代表,它们是搜索引擎史上的重要代表[5]。
(3)第三代搜索引擎:随着网络应用技术的发展,利用关键字来查询的主动搜索式引擎,开始替代原先只能沿着分类目录进行浏览的第二代搜索引擎,这种搜索引擎最具代表性、最成功的是早期的Google搜索引擎,它建立在网页链接分析技术的基础上,对数据端的内容进行了大量的分析和重构,使用关键字对网页搜索,能够覆盖互联网的大量网页内容,该技术可以在分析网页的重要性后将重要的结果呈现给用户。Google搜索引擎是由两名斯坦福大学的理学博士Page和Brin在1996年早期建立的,他们开发了一个可以对网站之间的关系做精确分析的搜索引擎,此搜索引擎的精确度胜于当时使用的基本搜索技术。当时的项目被称作BackRub,因为系统会检查反向链接(BackLinks),以评估站点的重要性。目前,Google搜索引擎每天需要处理超过2亿次的搜索请求,数据库存有30亿个互联网站点文件。
(4)第四代搜索引擎:随着网络信息的迅速膨胀,为了充分理解用户提出的检索需求与搜索引擎所能提供的知识服务内容之间的相关性,以便更加迅速、更加准确地响应用户的检索需求,语义搜索引擎诞生。相比第三代搜索引擎直接建立用户检索关键词与搜索引擎提供的网页内容之间的关系并在此基础上提供服务,第四代搜索引擎在用户端的需求分析功能上实施了更多的优化,更加注重对用户检索内容的个性化、专业化、智能化分析,在这个过程中广泛使用自动聚类、分类、区域智能识别及内容分析技术,在某些特定的环节进行人工介入,增强了搜索引擎的查询能力。第四代搜索引擎的代表是目前的Google、百度搜索等。