2.3.3 碎片化处理
接下来,平台将资源对象进行碎片化处理,即,将一个资源对象分解成若干个碎片,例如将一篇学术论文分解成8个碎片:术语、公式、图、表、研究结论、研究数据、研究方法、参考文献。
值得一提的是,本平台中的碎片化处理是从信息资源的阅读和传播角度提出的,而并不是从存储和计算角度提出的。因此,本平台中的碎片化处理(fragmenting)与云计算本身的切片(spliting)处理及NoSQL技术中的分片(sharding)处理之间存在一定的区别与联系,如表2-5所示。
表2-5 碎片化处理与切片、分片的比较
•在MapReduce框架中,切片是指当用户程序调用MapReduce框架时,将输入文件分成多个数据块。MapReduce框架中的切片是从计算层面提出的输入数据的分解动作,其分解目的是完成分布式处理,而分解策略是在语法层面按固定长度进行机械分解。然而,本平台中的碎片化处理的目的是方便人类用户阅读和传播信息,其分解策略是在语义层面按人们的阅读和传播习惯进行分解。二者的关系是,碎片化处理可以成为分片处理的依据。本平台中改变了云计算的默认切片方法,用碎片化处理来代替切片处理。
•在NoSQL技术中,采用分片策略实现数据分布,其基本思想是将不同数据存放在不同节点。通常,不同用户(群)访问同一个数据库的不同部分,也就是说数据库中的不同内容往往被不同用户访问。为此,NoSQL采用分片技术——根据数据的被访问规律,将不同部分存放在不同节点,进而分散单节点访问的负载,实现负载均衡,提升数据访问的速度,如图2-10所示。根据分片技术的思想,NoSQL数据库系统需要确保将同时访问的数据集中存放在同一个节点上,并事先组织好数据集。以Bigtable技术为例,Bigtable按照字典顺序排列表中的“行”,以逆向域名(reversed domain name)为序来排列URL。
图2-10 分片处理的示意图
在本平台中的碎片化处理的具体实现上,资源对象的碎片化处理可以采用全人工方法(如基于众包的Amazon MTurk)、全自动化技术(如基于自然语言处理的ETL技术)或者二者相结合的人机协同方式完成。需要强调的是,在云计算环境下的信息资源集成和服务中,尤其是在碎片化阅读中,提倡的是基于众包的人工标注或人机协同的语义标注方法。Amazon MTurk是2005年由Amazon公司研发的信息资源处理平台(图2-11)。其名称来自1769年匈牙利发明家Wolfgang von Kempelen研制的会下棋的机器人——Mechanical Turk。其实,Mechanical Turk机器人只是一个道具,由躲在机器里面的下棋高手操纵,并没有依靠目前机器人中普遍采用的人工智能技术。
图2-11 Amazon MTurk平台
Amazon MTurk为信息资源处理中的知识提供方(Workers,又称Turkers,以下简称供方)和知识需求方(Requesters,以下简称需方)之间提供了一个合作平台。与传统信息资源处理平台的根本区别在于Amazon MTurk信息资源处理的主体是人,而不是计算机。需方将信息资源处理需求分解成较具体的、易于完成的小任务——Human Intelligence Tasks(HIT),然后,通过此平台向供方发布。供方选择自己擅长的HIT,并完成指定操作。供方提交的结果经需方确认后,供方将得到一定数额的资金回报。此外,Amazon MTurk平台还提供了编程接口,软件开发者也可以通过调用平台提供的接口构建自己的应用程序。相对于传统劳动力市场和小规模信息资源处理平台,Amazon MTurk平台具有如下的特殊性:
•参与者的长尾性。Amazon MTurk平台的需方和供方均具备长尾性。一方面,此平台对信息资源处理任务的需求发布者不作任何限制,任何长尾主体注册和登录之后均可通过互联网在此平台上发布自己的信息资源处理需求;另一方面,此平台中的信息资源处理任务由人工完成,而且参与完成的长尾主体通过互联网选择信息资源处理任务和提交信息资源处理结果,一般对信息资源处理主体的身份和职业不作限制。因此,参与者的长尾性保证了Amazon MTurk平台的灵活性和低成本性。
•获取劳动力的弹性。Amazon MTurk平台中劳动力的规模具备弹性特点。在传统信息资源处理模式中,信息资源处理的劳动力的获得需要经过一系列的常规过程,如公布招聘信息、简历挑选、组织面试、岗位培训、职责分配、绩效考核等。因此,传统信息资源处理模式中获取劳动力的即时性较差,对劳动力的利用率较低。但是,Amazon MTurk平台改变了这种做法,其劳动力获取是按需的、弹性的,不仅可以很容易获得与特定信息资源处理任务对应的劳动力,而且可以根据任务量和完成情况调整劳动力的数量和范围。
•小任务性。Amazon MTurk平台发布的任务的粒度都是较小的,当需方的信息资源处理任务粒度较大时,需要进一步分解成一批更小的、更容易完成的信息资源处理任务,即HIT。小任务性是此平台的主要特点之一,较好地吻合了长尾主体的信息资源处理特征和规律,可以充分利用自己的业务时间,在不花费太多精力的前提下,轻松完成供方的任务。此外,小任务性也有助于保证供方工作的原始性,便于收集供方的第一感觉或原始想法,避免供方进行过多的修饰和过滤自己的观点。
•后支付模式。Amazon MTurk平台采用的是先劳动后支付的模式,需方在发布任务的同时公布报酬金额。供方完成小任务,经需方确认后,方可获得相应的报酬。先劳动后支付较好地避免了不认真用户的参与,提高了用户参与完成任务的积极性。
•资格审查。Amazon MTurk平台还提供了设置供方的资格条件(Qualification),如地域、领域和诚信度。供方可以采用资格条件选择劳动者类型。
•信息资源处理成本低。通过Amazon MTurk平台进行信息资源处理时,不需要聘请固定员工和日常管理成本,而是利用长尾主体的力量和网络平台,采取后支付模式,省去了传统信息资源处理中的员工管理的成本。此平台建议对一个HIT承诺的最小报酬可以低至0.005美元。
因此,当任务量不是太大、复杂度不够高时,通过此平台信息资源处理的成本小于传统信息资源处理的成本。但是,当需方信息资源处理任务非常复杂、工作量很大、参与完成的供方过多时,此平台上的信息资源处理成本可能超过传统模式。