上QQ阅读APP看书,第一时间看更新
1.1.2 定向爬虫
垂直定向爬虫是针对某一个行业的专业爬虫,例如搜房(http://www.soufun.com/),39健康网上的搜索。垂直搜索是搜索引擎的细分和延伸,是对网页库中的某类专门的数据进行处理后再以某信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。
垂直爬虫需要从茫茫的互联网中获取行业信息,信息按行业过滤和分类是必不可少的。垂直搜索引擎和普通的网页搜索引擎的一个最大区别是对网页信息进行结构化信息抽取,也就是将网页的非结构化数据抽取成特定的结构化信息数据,好比网页搜索是以网页为最小单位,基于视觉的网页块分析是以网页块为最小单位,而垂直搜索是以结构化数据为最小单位。然后将这些数据存储到数据库中,并进行进一步的加工处理,如去重、分类等。最后分词、索引再以搜索的方式满足用户的需求。
整个过程中,数据由非结构化数据抽取成结构化数据,经过深度加工处理后以非结构化的方式和结构化的方式返回给用户。
垂直爬虫的应用方向很多,比如企业库爬虫、供求信息爬虫、购物爬虫、房产爬虫、地理信息爬虫、音乐爬虫、图片爬虫……几乎各行各业各类信息都可以进一步细化成各类的垂直爬虫。
垂直爬虫的技术评估应从以下几点来判断。
(1)全面性:应该能从众多的来源采集信息。
(2)更新性:用户最好可以在几秒或几分钟内看到最新发布的信息。
(3)准确性:数据分类准确,不能包含重复冗余信息。
(4)功能性:功能完善,可以同时搜索文字信息、图片、视频、地理信息等。