2.2 知识图谱相关理论
2.2.1 引文分析理论
引文分析是指利用各种数学及统计学的方法和比较、归纳、抽象、概括等逻辑方法对科学期刊、论文、著者等各种分析对象的引证或被引证现象进行分析,以便揭示出研究对象所具有的特征或是它们之间的关系及其规律性这样一种文献计量研究方法。
1.引文分析的发展简史
最早运用科学论文的参考文献加以分析,以求达到某种目的的实践的是俄国科学院院士瓦尔金。他于1911年首次运用引文分析方法研究了包括俄国在内的化学家们对世界化学发展所作出的贡献。但是,当年的化学史著作并没有现代引文制度所规范的引文形式,瓦尔金所研究的是在正文中直接引用的叙述及脚注中出现的叙述,所以人们并没有认为瓦尔金是开引文分析先河者。
目前,学术界普遍承认的引文分析先行者是格鲁斯(Gross)等人[66],他们统计并分析了化学中某些科技期刊论文的参考文献。1927年,他们依据期刊刊登被引论文多少将期刊排列制表,建立起围绕化学教育所必备期刊的顺序表,并称为核心期刊表。1956年,布朗(Brown)依据统计所得的引文频次,评价并确定了期刊的重要性,其领域扩大到化学、物理、地理、生理、植物、动物、昆虫学等学科[66]。1962年,哈里格用引文分析法追踪研究一种新的学术思想是怎样传接的,他发现某些论文由于多次被引用,成了社会计量学领域的明星——核心论文,而其他多数论文几乎没有得到什么引用。1973年,美国情报学家亨利·斯莫尔(H. Small)(6)提出同被引技术[66]。从20世纪80年代开始,人们充分利用《科学引文索引(Science Citation Index, SCI)》和《期刊引用报告(Journal Citation Reports, JCR)》数据来进行多方面的研究。
2.引文分析的主要类型
如果从不同的角度、基于不同的标准来进行划分,就会得到不同的引文分析方法。例如,如果从获取引文数据的方式来划分,则可将引文分析方法分为直接法和间接法。其中,直接法是直接从来源期刊中统计原始论文所附的被引文献,从而取得数据并进行引文分析的方法;间接法则是通过“科学引文索引(SCI)”“期刊引用报告(JCR)”等引文分析工具,查得引文数据再进行分析的一种方法。如果从文献引证的相关程度来划分,则可将引文分析方法分为自引分析、双引分析、三引分析等三种类型。如果从分析的出发点和内容来来划分,则可将引文分析方法分为以下三种类型[67]:①引文数量分析,主要用于评价期刊和论文,研究文献情报流的规律等;②从引文间的网状关系或链状关系进行研究,科学论文间存在着一种引用关系网,研究这种关系主要用于揭示学科的发展与联系,展望未来前景等;③从引文反映出的主题相关性方面进行研究,主要用于揭示科学结构和进行文献检索等。
此外,如果从引文的其他不同特征出发,则可以派生出其他类型的引文分析。例如,从引文的语种、国别、类型、年代等进行引文分析。其中,引文语种分析对于人们有计划地引进外文文献、译文选题、外语教育等,颇有参考价值。引文国别分析可以探明各国互引文献的状况,弄清国际文献交流的数量和流向。引文类型分析有利于确定文献情报搜集的重点。引文年代分析不仅可以了解被引文献的出版、传播和利用情况,而且可以研究科学发展的进程和规律。
3.引文分析的应用领域
引文分析技术日趋完善,应用不断扩大。目前,引文分析方法主要应用在以下领域[68]:①测定学科的影响和重要性:通过文献引用频率的分析研究可以测定某一学科的影响和某一国家某些学科的重要性;②研究学科结构:通过引文聚类分析,特别是对引文间的网状关系进行研究,能够探明有关学科之间的亲缘关系和结构,划定某学科的作者集体;分析推测学科间的交叉、渗透和衍生趋势;还能对某一学科的产生背景、发展概貌、突破性成就、相互渗透以及今后发展方向进行分析,从而揭示科学的动态结构和某些发展规律;③研究学科信息源分布:通过文献间的相互引证关系,分析某学科(或专业)文献的参考文献的来源和学科特性,不仅可以了解该学科与哪些学科有联系,而且还能探明其信息来源及分布特征,从而为制定本学科的信息管理方案和发展规划提供依据;④确定核心期刊:引文分析方法是确定核心期刊的常用方法之一。这种方法的主要特点是从文献被利用的角度来评价和选择期刊,比较客观。加菲尔德通过引文分析,研究了文献的聚类规律。他将期刊按照期刊引用率的次序进行排列,发现每门学科的文献都包含有其他学科的核心文献。这样,所有学科的文献加在一起就可构成一个整体的、多学科的核心文献,而刊载这些核心文献的期刊不过1000种左右。利用期刊引文的这种集中性规律可以确定学科的核心期刊;⑤研究文献老化规律:有关文献老化的研究一般是从文献被利用角度出发的。普赖斯曾利用引文分析探讨文献的老化规律。通过对“当年指标”和“期刊平均引用率”的分析,他认为期刊论文是由半衰期绝然不同的两大类文献构成的,即档案性文献和有现时作用的文献。科学文献之间引文关系的一种基本形式是引文的时间序列。对引文的年代分布曲线进行分析,可以测定各学科期刊的“半衰期”和“最大引文年限”,从而为制定文献的最佳收藏年限、对文献利用进行定量分析提供依据。同时,一个学科的引文年代分布曲线与其老化曲线极为相似。这有力地说明文献引文分布反映了文献老化的规律性。因此,从文献引用的角度研究文献老化规律是一种有效的途径和方法;⑥研究信息用户的需求特点:利用引文分析方法进行信息用户研究是一种重要途径。根据科学文献的引文可以研究用户的信息需求特点。一般来说,附在论文末尾的被引用文献是用户(作者)所需要和利用的最有代表性的文献。因此,引文的特点可基本反映出用户利用正式渠道获得信息的主要特点,尤其是某信息中心对其所服务的用户所发表的论文的引文分析,更具有直接的指导意义。通过对同一专业的用户所发表的论文的大量引文统计,可以获得与信息需求有关的许多指标,如引文数量、引文的文献类型、引文的语种分布、引文的时间分布、引文出处等;⑦评价人才:在人才评价方面,常采用引文分析方法。这是因为某著者的论文被别人引用的程度可以是衡量该论文学术价值和影响的一种测度,同时,也从科研成果被利用的角度反映了该著者在本学科领域内的影响和地位。因此,引文数据为人才评价提供了定量依据。
2.2.2 复杂网络理论
1.复杂网络的含义
复杂网络(Complex Network)的研究始于20世纪60年代[69]。数学家Erd?s和Rényi提出的随机图模型(现在被称为ER模型)是该领域的奠基性数学理论。小世界现象和无标度网络的发现,统计物理学研究手段的进步,促进了复杂网络研究的发展。20世纪90年代末期,复杂网络理论被西方学者广泛关注,国内则从2002年开始相关研究。复杂网络的理论研究主要由图论、统计物理学、计算机网络研究、生态学、社会学以及经济学等领域的学者进行,他们主要考虑建模问题、网络性质、网络形成机制、网络演化统计规律、网络上的模型性质、网络的结构稳定性以及网络的演化动力学机制等问题。应用研究则非常广泛,应用到自然科学和社会科学的多个领域。现实世界中有许许多多的复杂网络(例如,互联网、科研合作网、无线通讯网络、电力网络、生物神经网络和DNA、社会关系网、航空网络等)。钱学森(7)对复杂网络进行了比较深入的描述,指出复杂网络是具有自组织、自相似、吸引子、小世界、无标度中部分或全部性质的网络。
2.复杂网络的类型
如果按模型结构来区分,则可将复杂网络细分为以下四种类型[49][69]。
(1)规则网络。规则网络包括常见的具有规则拓扑结构的网络,如完全连结图,星状网络,邻近节点连接图等。用得最多的规则网络是由N个节点组成的环状网络。
(2)随机网络。Erd?s和Rényi提出一种构造网络的方法,在此方法下两个节点之间连边与否不再是确定的事情,而是根据一个概率决定。这是一种完全随机的网络模型,这样生成的网络叫做随机网络。
(3)小世界网络。Watts和Strogatz提出小世界模型,构造出一种介于规则网络和随机网络之间的网络——小世界网络。
(4)无标度网络。许多实际的复杂网络的连接度分布具有幂律函数形式,由于幂律分布没有明显的特征长度,该类网络又被称为无标度网络(Scale-Free)。
3.复杂网络的特征
复杂网络的两个最基本的特点是小世界性和无尺度性,这些特性可以在情报学的某些领域获得应用(例如,信息传播、信息资源配置、信息检索、知识地图、知识交流、科研合作网络、引文网络、网络信息资源的组织与服务等领域)。更重要的是,复杂网络的研究视角是从整体角度来关注网络结构对其功能的影响,运用计算机进行大规模网络分析,这为信息计量学研究提供了一种新的研究问题的方法。此外,复杂网络的特征还包括[69]:①连接结构的复杂性:网络连接结构既非完全规则也非完全随机,但却具有其内在的自组织规律;②网络的时空演化的复杂性:复杂网络具有空间和时间的演化复杂性,展示出丰富的复杂行为,特别是网络节点之间的不同类型的同步化运动。
2.2.3 小世界理论
1.小世界理论的含义
1967年,哈佛大学社会心理学家斯坦利·米尔格兰姆(Stanley Milgram)(8)进行了一项连锁信件实验,提出了著名的“六度分离”(Six Degrees of Separation)假设,即“小世界现象”(Small World Phenomenon)。通过实验,他证明了地球上任何两个人之间联系起来,经过的中间人平均值为6个[70]。1998年,Watts和Strogatz在研究规则网络和随机网络理论的基础上提出了“小世界模型”[71],即W-S模型,该模型说明了小世界网络的构建过程。研究表明,许多实际网络(社会、生态等)都具有小世界性质。“小世界现象”目前还没有精确的定义,较为合理的解释是指网络中任意两点的平均距离L随网络大小(结点数N)呈对数增长,即L-lnN,也就是说网络中结点数量增加很快时,L的变化相对较慢,这种现象称为“小世界现象”。
当年,米尔格伦的实验只涉及到300余人,但借助先进的科技,研究所用的信息量被扩大到300亿条之多,为理论提供了更坚实的基础。现在,“六度分离”理论已在实践中得到广泛应用,不少商人和求职的大学生更是将它作为认识朋友、扩展人脉的金玉良言加以实践。
2001年,哥伦比亚大学社会学系的一个研究小组开始在互联网上进行了这个实验。他们建立了一个实验网站,终点是分布在不同国家的18个人(包括纽约的一位作家、澳大利亚的一名警察以及巴黎的一位图书管理员等等),志愿者通过这个网站把电子邮件发给最可能实现任务的亲友。结果一共有384个志愿者的邮件抵达了目的地,电子邮件大约只花了五到七步就传递到了目标。
美国的一个脱口秀节目有一次请了三个大学生来参加,主题是证明好莱坞的任何其他明星与演技派男星凯文·贝肯(9)之间都能通过五个人联系起来。他们甚至成功地将已经去世的查理·卓别林(10)与凯文·贝肯之间通过三个人建立了联系。节目引起了巨大反响。
微软公司的研究人员为证实这种理论的可行性而开展实验,随意挑选了2006年的某一月,记录下当月所有通过微软网络发送短信的用户地址,分析了300多亿条地址信息,最终统计得出,多达78%的用户仅通过发送平均6.6条短信,或者说通过6.6步,就可以和一个陌生人建立起联系。按照这种理论,每个人都可以利用关系网与陌生人搭上关系,甚至像麦当娜、英国女王这样的名人从某种意义上来说都是我们的“熟人”。
2.小世界网络的特征
小世界网络是一种特殊结构的复杂网络,可以使用特征路径长度和聚合系数两个特征来衡量小世界网络,节点之间的特征路径长度小,而聚合系数高[49][69]。
(1)特征路径长度。在网络中,任选两个节点,连同这两个节点的最少边数,定义为这两个节点的路径长度,网络中所有节点对的路径长度的平均值,定义为网络的特征路径长度(Characteristic Path Length),这是网络的全局特征。其中,最短的路径也称为两点间的距离,记作Dist(i, j)。而平均路径长度定义为
其中N是节点数目,并定义节点到自身的最短路径长度为0。如果不计算到自身的距离,那么平均路径长度的定义就变成:
(2)聚合系数。聚合系数(Clustering Coefficient):假设某个节点有k个边,则这k条边连接的节点(k个)之间最多可能存在的边的个数为k(k-1)/2,用实际存在的边数除以最多可能存在的边数得到的分数值,定义为这个节点的聚合系数。所有节点的聚合系数的均值定义为网络的聚合系数。聚合系数是网络的局部特征,反映了相邻两个人之间朋友圈子的重合度,即该节点的朋友之间也是朋友的程度。