知识系统与知识图谱
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.1.2 知识升华过程

相较于知识而言,数据和信息具有更加宏大的定义范畴,我们对“数据”定义如下。

简单地说,数据就是我们以某种方式观察客观世界所得到的信息的最基本表现形式,就像光、热、声音、味道等,这些最基本的数据能够以各种各样的方式被感知、表示和存储。

信息,就是数据在传播过程中的另外一种形态,具备在空间及时间的不同位置彼此传递、在各个不同感知主体之间传递、在不同的形态之间转换的能力,数据只有在传递的过程中才能够被称为信息。比如,存储在计算机存储介质中的数据,在人们需要提取它的时候,从计算机主体传递到了用户的认知系统,在这个过程中,被传递的这部分数据就可以被称为信息。数据的可传递性是普遍的,这个世界上绝大多数数据在某种特定的条件下都可以成为信息(少数极端情况下除外,比如宇宙黑洞核心点物质的部分物理属性,宇宙起源时的部分物质属性等)。因此我们可以说,信息集合是数据集合的动态子集,所有信息都是数据,但并不是所有数据在任何时候都是信息。

而知识,就是人类对数据信息进行加工处理所得到的结果,这种加工处理方式中最典型的就是归纳(Induction)和演绎(Deduction),前者表示将局部的、特定的、有限制性的数据转换为全局的、普遍的、无限制性的数据,比如从“1个苹果加1个苹果就是2个苹果”到“1+1=2”,就是一个典型的归纳过程,在逻辑上,我们将其理解为一个自下而上的过程。演绎则表示一个反向的数据转换过程,从“1+1=2”到“1个橘子加1个橘子就是2个橘子”,从层次的上到下,一般到个别。

数据、信息、知识三者的关系:从涵盖范围来讲,所有的知识都是以数据形态存在的,但并不是所有的数据都是知识,只有满足知识的四个特征的数据才能够被称为知识,而这种关系是静态的,一个数据一旦被判定为知识,在有限的空间和时间之内,这种属性就不会变化。比如“1+1=2”这个数据在我们人类所认知的世界的任何空间和时间领域之内永远都会是知识,但“1+1=3”这个数据就永远不会成为知识。相对而言,数据和信息的关系就具有动态性,如前文所说,几乎任何数据都有可能成为信息,但只有在传递的过程中才能被称为信息,而任何情况下信息的表示形式都是数据。需要指出的是,虽然所有的知识都是以数据的形式处理,且数据都是由直接观察客观世界得到的,但并不是所有的知识都能够从观察客观世界而直接得出,比如“1+1=2”这种信息,必须通过对客观世界数据的归纳才能够得到,这体现了知识的层次性。

而信息和知识的关系,同数据和知识的关系类似,满足知识的四个特征的信息可以被称为知识,但知识只有在传递过程中才能成为信息。比如本书的内容,可以被称为知识,以数据的形式保存在书中,而在读者阅读这本书时,书中的知识以信息的形式传递到读者的脑中。

我们将数据、信息、知识三者的关系,以图的形式表达出来。图1.1所示为数据、信息、知识三者的关系。

图1.1 数据、信息、知识三者的关系

从数据到知识,我们需要经历这样一个过程:从客观世界观察到一些数据,存在于我们的主观认知中,经过人类的主观思考,对数据进行初步加工和验证,将其中一些数据直接当成知识去运用,这种运用包括当作信息进行传播,或者指导人类活动等。对于另外一些数据,需要人类进行归纳和演绎的处理过程,将片面的、局部的知识归纳为全面的、涵盖客观世界其他部分的知识,并进一步演绎为其他局部的知识,从而指导人类活动或作为信息进行传播。

一方面,只要符合知识的四个特征的数据都能被称为知识,意味着很多简单的、浅显的、直观的数据都可以被称为知识;另一方面,很多知识并不能够直接通过观察客观世界获得,需要我们对现有的数据进行进一步的加工,主要是归纳和演绎,才能够得出我们需要的高层次的知识,而在这种过程中,知识必定要以信息的形式,经过传递的过程才能实现,无论从知识的存储系统到达用户,还是从一个用户到达另外一个用户,还是在系统之间。建立在以上两个方面的基础上,通过知识的传递过程,知识系统和知识服务的重要性得以体现出来。

从数据到信息,从信息到知识,从低层次的知识到高层次的知识,这一类的过程代表了知识的升华过程。在这个过程中,知识逐渐复杂,逐渐变得难以直观理解,其规模也变得庞大,在这种情况下,我们需要特定的知识系统和知识服务来帮助用户对知识进行学习、理解、存储和传递。

在本书中,除了明确说明其存在歧义或者不真实值,所有被称为“信息”或者“知识”的概念都同时具有信息和知识的属性。一方面,任何被提起的数据都天然具有信息的特性,因为只要被提起,就等同于正在进行从知识系统到人类认知的传递过程;或者说,任何存在于知识系统的数据的最终归宿都是被传递,任何数据,不论真假与否,不论层次高低,在无限的时间、空间之内,都会被传递,毕竟创造这个数据的目的就是使其被传递。另一方面,在本书中,当我们提到数据的时候,由于这种数据会被知识系统所存储和管理,我们默认其具有知识的相关属性,即能够被称为知识,除非提及其值不真。