2.1 异构信息网络
定义2.1 信息网络(Information Network)。信息网络是定义在一个对象集合V和边集合E上的加权图G=(V,E,τ,φ,ψ)。其中,τ为边的权重映射函数τ:E→ℝ+,即∀e∈E有τ(e)∈ℝ+;φ为对象类型映射函数φ:V→V,φ将对象集V中的每一个对象都映射到一种对象类型,即∀v∈V有φ(v)∈V;ψ为关系类型映射函数ψ:E→E,ψ将边集E中的每一条边都映射到一种关系类型,即∀e∈E有ψ(e)∈E。
通常情况下,信息网络G=(V,E,τ,φ,ψ)也简记为G=(V,E),这两种记法互为等价,在接下来的讨论中使用简记,将信息网络直接记为G=(V,E)。信息网络的定义中最大的一个特征是明确区分了对象所属的对象类型和边所属的关系类型。记信息网络中的对象类型数为N,有N=|V|,关系类型数为R,有R=|E|。从而,当N>1或者R>1时,信息网络中具有多类型的对象或者多关系类型的边,这种信息网络称为异构信息网络(Heterogeneous Information Network);当N=1且R=1时,信息网络称为同构信息网络(Homogeneous Information Network)。本书的主要研究对象为异构信息网络,除特别标注或者说明,书中出现的异构网络和异构信息网络等价,均指异构信息网络。
为了方便阐述,将对象类型Vn中的任意对象记为,其中In是类型Vn中的对象总数,即In=|{v|v∈V,φ(v)∈Vn}|,n=1,2,…,N。从而,信息网络中对象的总数记为。异构信息网络中的任意边记为,其中ia=1,2,…,Ia;ib=1,2,…,Ib;a,b=1,2,…,N。特别地,在异构信息网络中如果边集E中的两条边与具有相同的类型,即,那么这两条边所连接的起点对象具有相同的类型,即,并且终点对象也具有相同的类型,即。
对于异构信息网络中的任意一条边,根据应用和具体情况的不同,权重函数τ可以有多种形式的定义。其中,最简单的权重函数τ:E→ℝ+可以定义为:
很显然,此时的异构信息网络变成了一个非加权网络,即网络中所有边的权重值相等且均为1,这也是现实情况中最常见的一种。当然,根据具体情况,可以定义不同的加权函数τ,并不影响本文接下来的讨论。
给定一个复杂的异构信息网络G=(V,E),尤其是网络中包含大量对象和边时,如图2.1所示的几个例子,我们很难一眼就看出网络各种类型的对象和边之间的组织结构。为了更好地抽象出网络中对象和边的组织形式和结构信息,需要一种从网络元级别的描述形式。网络模式可以从元级别来描述异构信息网络中对象类型与关系类型的组织结构,这是对异构信息网络元结构的一种抽象。
定义2.2 网络模式(Network Schema)。网络模式是异构信息网络G=(V,E)的一个元模板,是定义在对象类型V和关系类型E上的一个图,记为SG=(V,E)。
网络模式SG=(V,E)从元级别描述了异构信息网络G=(V,E)中存在的对象类型集合,以及不同类型对象之间存在的关系类型约束。异构信息网络G=(V,E)也称为符合网络模式SG=(V,E)的一个网络实例。从一个简单的网络模式,可以看出一个复杂的异构信息网络中对象组织形式和对象之间存在的语义关系类型;而异构信息网络中的任意子网络,都可以在网络模式中找到与其对应的结构。图2.1列出了几种常见的网络模式。
图2.1 异构信息网络常见的网络模式
1.二元网络(Bipartite Network)
二元网络是一种典型的异构信息网络,广泛地应用于描述两种类型对象之间的交互关系,例如电子商务中的“用户—商品”购买关系网络、文本检索中的“文档—词汇”关系网络。图2.1(a)就是一个“文档—词汇”二元网络的网络模式。
2.星形网络(Star-schema Network)
星形网络是一种比较常见的网络模式。例如在数据库表格中,一个目标对象和它的属性对象可以自然地构建为异构信息网络,其中目标对象作为中心节点与其他属性对象相连接就构成了一个星形网络。图2.1(b)所示为计算机科学领域的著名科学文献发表网络DBLP(DataBase system and Logic Programming)。DBLP网络是一个开放资源,包含了绝大部分计算机科学领域的文献发表信息,其网络模式是一个典型的星形网络。DBLP网络中包含了四种类型的对象:“论文”“作者”“刊物”“主题”,其中,“论文”是中心节点,其他都是属性对象。DBLP网络中的连接关系只存在于“论文”与其他对象之间,如图2.1(b)所示,“论文”与“作者”之间存在“写作”关系,“论文”与“刊物”之间存在“发表”关系,以及“论文”与“主题”之间存在“包含”关系。
3.多中心网络(Multiple-hub Network)
多中心网络明显比星形网络模式要复杂得多,其网络中存在多个中心节点,且中心节点之间也存在连接关系。多中心的网络模式主要存在于生物信息网络和互联网数据中。图2.1(c)给出的豆瓣电影网络的网络模式就是一个多中心网络,其包含了两个中心节点:“电影”和“用户”。多中心网络中的连接关系除了存在于中心节点与属性对象之间,如“导演”与“电影”之间存在“指导”关系、“演员”与“电影”之间存在“演出”关系、“电影”与“类型”之间存在“属于”关系、“用户”与“群组”之间存在“加入”关系,中心节点与中心节点之间也存在连接关系,如“用户”与“电影”之间存在“评分”关系,“用户”与“用户”之间存在“朋友”关系。
除了以上几种常见网络模式的异构信息网络,在现实的异构信息网络中还存在着许多更加复杂的网络模式。例如,在某些应用中,很多用户可能出现在多个社交网络中,即存在很多用户会在不同的社交网络中都有账号的情况,这些用户就将不同的社交网络联系在一起,形成了一个更加复杂的异构信息网络。此处的面向基因共表达网络的异构信息网络,可以是符合以上任意一种网络模式的异构信息网络,也可以是其他符合更一般的网络模式的异构信息网络。