2.1 百度搜索引擎简介
百度坚持相信技术的力量,始终把简单、可依赖的文化和人才成长机制当成最宝贵的财富。如图2.1所示为百度Logo——“熊掌”图标,该图标的想法来源于“猎人巡迹熊爪”,与李彦宏博士的“分析搜索技术”非常相似,从而构成百度的搜索概念,也最终成为百度的图标形象。2016年百度中国网民的使用占有率为53.87%,是国内用户占有量最高的搜索引擎品牌。
图2.1 百度Logo
2.1.1 百度搜索引擎发展历程
1.百度2000年
2000年1月,李彦宏从美国硅谷回国,在中关村创建百度。
2000年6月,百度正式推出全球最大、最快、最新的中文搜索引擎,并且宣布全面进入中国互联网技术领域。
2000年8月,百度开始为搜狐提供服务。
2000年9月,DFJ、IDG等国际著名风险投资公司为百度投入巨额资金。
2000年10月,百度开始为新浪提供服务。
2000年10月26日,百度网络技术有限公司宣布已完成第二期融资。
2000年11月16日,百度公司宣布正式向三大门户网站之一的新浪网中国区提供中文网页信息检索服务,支持其全面推出综合搜索引擎。
2.百度2001年
2001年1月,百度为263提供全面搜索服务。
2001年2月,百度为TOM提供全面搜索服务。
2001年8月,发布百度搜索引擎Beta版,从后台服务转向独立提供搜索服务,并在中国首创了竞价排名商业模式。
2001年9月,百度搜索竞价排名浮出水面。
2001年10月22日,正式发布百度搜索引擎。
2001年10月,百度为上海热线提供全球中文网页检索系统。
2001年10月,中国人民银行金融信息管理中心,采用百度“网事通数据库检索”软件。
3.百度2002年
2002年1月,央视国际全套引入了百度“网事通”信息检索软件。
2002年3月,百度总裁李彦宏获选“中国十大创业新锐”。
2002年6月,百度正式推出IE搜索伴侣。
2002年11月,发布MP3搜索。
2002年11月,推出搜索大富翁游戏。
2002年11月,为网易提供服务。
2002年12月,中国移动签约百度企业竞争情报系统。
2002年12月,康佳、联想、可口可乐等国际知名企业成为百度竞价排名客户。
4.百度2003年
2003年1月,百度总裁李彦宏荣获首届“中国十大IT风云人物”称号。
2003年6月,由第三方赛迪集团下属中国电脑教育报举办的“万人公开评测”公布了评测结果。百度超越谷歌,成为中国网民首选的搜索引擎。
2003年6月,百度推出中文搜索风云榜。
2003年7月,百度推出新闻和图片两大技术化搜索引擎。
2003年9月,TOM宣布与百度合作,百度为其提供检索技术。
2003年11月,百度推出新闻图片搜索。
2003年12月,百度陆续推出地区搜索、“贴吧”等划时代功能,搜索引擎步入社区化时代;同时发布的还有高级搜索、时间搜索、新闻提醒3个功能。
5.百度2004年
2004年3月,中国搜索引擎调查揭晓,百度垄断中文搜索市场。
2004年5月,据alexa最新显示百度已经成为全球第四大网站。
2004年6月,百度成功融资。
2004年6月,WAP版百度贴吧面世,通过手机也能方便地去贴吧逛逛。
2004年8月,百度收购Hao123网址之家。
2004年9月,百度广告每日每字千金,创下中国网络广告天价。
2004年9月,中国第一部搜索书籍《巧用百度》正式出版。
2004年11月,推出世界上第一款WAP/PDA中文网页搜索引擎。
2004年12月,iresearch发布《2004中国搜索引擎研究报告》,百度霸主地位凸显。
6.百度2005年
2005年2月,百度发布全球首款支持中英文的硬盘搜索工具。
2005年3月24日,盛大互动娱乐有限公司与百度在线网络技术有限公司结成战略合作伙伴关系。
2005年5月17日,百度与中国电信合作推出百度黄页搜索测试版,借此正式进军本地搜索业务领域,同时将黄页数据资源引入百度已有的PDA和WAP移动搜索等服务。
2005年5月,百度荣登2005年最具成长力21家企业榜首。
2005年6月23日,百度推出名为“百度知道”的网上问答服务,进军“知识搜索”领域。
2005年8月5日,百度在NASDAQ成功上市。同时在alexa排名中超越新浪,成为第一中文网。
2005年11月8日,大型互动问答平台“百度知道”正式版上线。
2005年11月8日,百度百科正式版上线。
2005年12月,中国互联网品牌调查揭晓,百度荣享中文搜索第一品牌。
7.百度2006年
2006年1月,百度开通国学频道。千年国学,百度一下。
2006年3月,百度首席财务官王湛生当选中国首个杰出CFO。
2006年3月,百度与世界领先移动通信制造商诺基亚携手,在诺基亚手机中植入中文移动搜索服务。
2006年4月,继“百度贴吧”与“百度知道”之后,百度推出第三个社区类搜索产品——“百度百科”,百度社区知识搜索三驾马车浮出水面。
2006年7月,百度推出颠覆性广告模式——精准广告。
2006年9月,CNNIC和CIC搜索引擎市场报告均显示:百度市场占有率遥遥领先。
2006年9月,百度中国搜索引擎入选中国十大创新软件产品。
2006年9月,百度竞价排名全面推出智能排名功能,以“综合排名指数”作为排名的标准。
2006年11月,百度推出新产品“搜藏”。
8.百度2007年
2007年4月25日,百度盲道发布。百度盲道包括了7项主要的百度搜索服务,即盲道版的百度新闻搜索、百度网页搜索、百度MP3搜索、百度贴吧、百度知道、百度百科、Hao123网址导航。
2007年9月19日,正式宣布游戏频道上线。
2007年11月1日,百度统计系统测试版正式上线。
9.百度2008年
2008年1月12日,百度娱乐正式上线。
2008年2月29日,百度IM软件“百度HI”开始内测。
2008年4月21日,百度百科正式版发布。
2008年9月10日,百度宣布,已经将其C2C支付平台定名为“百付宝”,百付宝将连同百度C2C平台一起发布。
2008年9月,百度入股联合网视获1亿元现金和8.3%股份。
2008年10月8日,百度网上交易平台正式定名为“有啊”。
2008年12月18日,百度上海研发中心挂牌成立,同时,百度宣布正在实施“阿拉丁平台计划”。
10.百度2009年
2009年4月20日,百度搜索推广专业版全面上线。
2009年8月10日,百度成立贴吧事业部,企业市场部总监舒迅任总经理。
2009年9月,百度搜索框大厦竣工。
2009年10月,百度联手中科院,战略合作开发“框计算”。
2009年12月1日,百度全面启用搜索营销专业版(即凤巢系统)。
11.百度2010年
2010年1月18日,百度首页改版新增“地图”“百科”链接。
12.百度2011年
2011年4月28日,百度旅游正式上线。
2011年6月,百度音乐正式上线。
13.百度2012年
2012年3月23日,百度举办开发者大会,正式发布百度云战略。
2012年5月,百度获评全球最具价值百强品牌居亚洲科技首位。
2012年12月2日,百度音乐十周年,百度MP3正式更名为百度音乐。
2012年12月25日,百度语音助手安卓版本正式发布。
14.百度2013年
2013年5月7日,百度收购PPS视频业务,并将PPS视频业务与爱奇艺进行合并,PPS将作为爱奇艺的子品牌运营。
15.百度2014年
2014年4月3日,百度宣布已经获得基金销售支付牌照,将正式为基金公司和投资者提供基金第三方支付结算服务。
2014年8月,百度诉360违反Robots协议案于2013年由百度向法院提起诉讼。
2014年12月15日,《世界品牌500强》排行榜在美国纽约揭晓,百度公司首次上榜。
16.百度2015年
2015年2月2日,百度公司宣布将百度现有业务群组和事业部整合为三大事业群组。
2015年12月,百度宣布正式成立自动驾驶事业部。
17.百度2016年
2016年4月,百度私募股权众筹平台百度百众上线。
2.1.2 百度搜索引擎发展趋势
1.社会化搜索
随着Facebook的流行,社交网络平台和应用占据了互联网的主流,社交网络平台强调用户之间的联系和交互,这对传统的搜索技术提出了新的挑战。
传统搜索技术强调搜索结果和用户需求的相关性,社会化搜索除了相关性外,还额外增加了一个维度,即搜索结果的可信赖性。对于某个搜索结果,传统的结果可能成千上万,但如果处于用户社交网络内,其他用户发布的信息、点评或验证过的信息则更容易信赖,这是与用户的心理密切相关的。社会化搜索为用户提供了更准确、更值得信任的搜索结果,如图2.2所示。
图2.2 社会化搜索呈现图
国外的dogpile搜索引擎能够得到发展和壮大,主要得益于国外传统搜索过多,并且企业实现共赢的理念,但在中国,更多的人思考的是如何把所有资源都掌握在自己手中,百度、谷歌、雅虎是不会看着自己在未来发展中落伍而成为跟潮人,因此这几家都在不断地丰富自己的产品线,并且触及社会化搜索,来保证自己在这个行业中的地位。
2.实时搜索
随着微博的个人媒体平台兴起,对搜索引擎的实时性要求日益增高,这也是搜索引擎未来的一个发展方向。
百度也推出过实时搜索,方法是:在浏览器中输入http://www.baidu.com/s?rtt=2&tn=baiduwb&wd=【关键字】。
实时搜索最突出的特点是时效性强,越来越多的突发事件首次发布在微博上,实时搜索核心强调的就是“快”,用户发布的信息第一时间能被搜索引擎搜索到,如图2.3所示。
图2.3 实时搜索呈现图
3.移动搜索
随着智能手机的快速发展,基于手机的移动设备搜索日益流行,但移动设备有很大的局限性,如屏幕太小、可显示的区域不多、计算资源能力有限、打开网页速度很慢、手机输入烦琐等问题都需要解决,如图2.4所示。
图2.4 移动搜索结果
目前,随着智能手机的快速普及,移动搜索一定会更加快速地发展,所以移动搜索的市场占有率会逐步上升,而对于没有移动版的网站来说,百度也提供了“百度移动开放平台”来弥补这个缺失。
4.个性化搜索
个性化搜索主要面临两个问题:如何建立用户的个人兴趣模型?在搜索引擎里如何使用这种个人兴趣模型?
个性化搜索的核心是根据用户的网络行为,建立一套准确的个人兴趣模型。而建立这样一套模型,就要全民收集与用户相关的信息,包括用户搜索历史、点击记录、浏览过的网页、用户E-mail信息、收藏夹信息、用户发布过的信息、博客、微博等内容。比较常见的是从这些信息中提取出关键词及其权重。
为不同用户提供个性化的搜索结果,是搜索引擎总的发展趋势。但现有技术有很多问题,如个人隐私的泄露;而且用户的兴趣会不断变化,太依赖历史信息,可能无法反映用户的兴趣变化。
5.地理位置感知搜索
目前很多手机已经有GPS的应用了,这是基于地理位置感知的搜索,而且可以通过陀螺仪等设备感知用户的朝向,基于这种信息,可以为用户提供准确的地理位置服务以及相关搜索服务。目前此类应用已经大行其道,如手机地图APP。
如何将中文的用户查询翻译为英文查询,目前主流的方法有3种,即机器翻译、双语词典查询和双语语料挖掘方法。对于一个全球性的搜索引擎来说,具备跨语言搜索功能是必然的发展趋势,而其基本的技术路线一般会采用查询翻译加上网页的机器翻译这两种技术手段,如图2.5所示。
图2.5 跨语言搜索
6.多媒体搜索
目前,搜索引擎的查询还是基于文字的,即使是图片和视频搜索也是基于文本方式。那么未来的多媒体搜索技术则会弥补查询这一缺失。多媒体形式除了文字,还包括图片、音频和视频。
多媒体搜索比纯文本搜索要复杂得多,一般多媒体搜索包含4个主要步骤:多媒体特征提取、多媒体数据流分割、多媒体数据分类和多媒体数据搜索引擎。
例如图片搜索,一般的步骤为:第一步,缩小尺寸;第二步,简化色彩;第三步,计算平均值;第四步,比较像素的灰度;第五步,计算哈希值。
7.情境搜索
情境搜索是融合了多项技术的产品,上面介绍的社会化搜索、个性化搜索、地点感知搜索等都是支持情境搜索的。
所谓情境搜索,就是能够感知人与人所处的环境,针对“此时此地此人”来建立模型,试图理解用户查询的目的,根本目标还是要理解人的信息需求。例如,某个用户在苹果专卖店附近发出“苹果”这个搜索请求,基于地点感知及用户的个性化模型,搜索引擎就有可能认为这个查询是针对苹果公司的产品,而非对水果的需求。