信息科技论文
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第4章

论文引用率与科研评价指标

4.1 高被引论文及高被引论文的特征

4.1.1 什么样的论文引用率高

什么样的论文引用率(Citation Rate)高?

答案很简单:对读者有价值的论文。

那么,什么样的论文对读者有价值?这是一个问题。谈论这个话题之前,先让我们谈点别的。

京城里相声社很多。要想知道时下哪家最火很容易,只需到各社的剧场数一下人头就可以了。要想知道哪家一直很火也很容易,只需隔三差五地到各社的剧场数一下人头就可以了。要想知道哪家火成了经典也不难,只需到各社的剧场看一下大家在模仿谁就知道了。当然,这经典不仅限于京城,也不限于三五载、十来年。比如,天津的马三爷早已驾鹤西游多年,可他的段子至今还在全国各地不同的社里不断地被模仿。这就是马派相声艺术在观众中的价值。其实,论文也是这样。

既然如此,就先从那些聚集人头最多的论文说起吧。我们用Google Scholar学术搜索引擎查找高被引论文,统计自论文发表之日起至2012年1月20日止的引用次数。然后,看看这些论文“火”的原因。

1.原创、有新意

去相声社,大家都喜欢听新段子。有新意的段子招笑,吸引人。因此,即便是像《八扇屏》这样的传统老段子,每个演员在表演的时候也都会临场发挥,加一些新鲜笑料。就论文而言,创新更重要,因为论文读者更喜欢新东西。科学研究是最追求进步、最喜新厌旧的。对同一个问题,后发表的论文应比先发表的论文有新意。如果没有差别,那研究还有什么意义?谁还会看后发表的东西?没人看,自然也就没有引用。所以,成果最好是原创,是绝活儿。如果不是,那也要有区别于前人的新意。

1978年,C.A.R.Hoare在Communications of the ACM发表论文Communicating Sequential Processes,介绍了他的原创性成果“通信顺序进程”(Communicating Sequential Processes,CSP),为程序的并发行为描述提供了重要手段。在刊出之后的30多年里,论文获得了14442次引用。这就是创新的魅力。

2.满足读者需求

新会吸引人,但为了新而新的东西或者“人咬狗”之类的新奇玩意儿,只能暂时吸引人的眼球。人们在见识过它们的庐山真面目之后,很快就会移情别恋甚至忘记。其实,下面的两种情况很常见。

(1)一篇论文发表之后,迅速引起大家的注意;在很短的时间内,被大量下载;可就是引用很少或根本没人引用。下载论文的读者,似乎都是来“打酱油”的。

(2)在一本影响因子很高的期刊上,有的论文发表后当年就有引用,有的发表了20多年,一次引用也没有。当然,谁也不能保证30年后那没人引用的论文不会被人引用。然而,科学与艺术不同,像梵高那样“大器晚成”的科学家是非常稀少的,更何况即便是在艺术界,梵高那样的艺术家也非常稀少。人们不禁感叹:同一本期刊发表的论文,差别怎么这么大呢?

不能说这些论文没有创新。如果没有创新,也不可能在影响因子那么高的刊物上发表。不过,显然它们对解决读者关心的问题没什么帮助,读者也就失去了兴趣。这就如一些新相声段子,一看海报,很新,很有趣,招来不少观众;可演出开场没多久,观众就都退场了。原因很简单:观众觉得没意思。

3.有生命力

一些相声段子,推出后很火,火几年之后便没人愿意再听。不像马三爷的段子,火遍津门,火遍京城,火遍大江南北,经久不衰。并不是说红火一时的段子不好,它们有它们的魅力,只能说马三爷的艺术有更强的生命力。但马三爷那样的艺术家毕竟是少数。红火一时也很好。

红火一时的论文很多。翻开任何一本有影响的学术期刊,我们都会发现有不少这样的论文:它们在刊出后的几年里获得了不错的引用,随后便基本上,甚至完全没有引用了。当然,也有如马三爷艺术一样的论文,自发表之日起一直有人引用,且经久不衰。为什么呢?我们不妨找几篇这样的论文来看看,相信会对大家有所启发。

1948年,C.E.Shannon在Bell System Technical Journal上发表了一篇题为A Mathematical Theory of Communication的论文。之后,这篇论文陆陆续续获得了3563次引用。可不知怎么搞的,Bell System Technical Journal这本发表过许多优秀成果的著名期刊在1983年停刊了。但这并没有影响该文的引用。2001年,ACM SIGMOBILE Mobile Computing and Communications Review为C.E.Shannon办了一期专辑(Special Issue Dedicated to Claude E.Shannon),重新刊载了这篇长文。最后,这篇论文获得了20755次引用。C.E.Shannon的这篇论文开创了信息论(Information Theory),成为信息科技领域的经典之作。C.E.Shannon的信息论与许多人的工作相关,世界各地与之相关的众多科研人员赋予了这篇论文无限的生命力。

另一个典型例子是C.A.R.Hoare在1978年发表的那篇题为Communicating Sequential Processes的论文,该文提出了“通信顺序进程”(Communicating Sequential Processes,CSP)的思想。CSP被提出后在程序设计语言中得到了不错的应用。例如:Java语言引入了它并提供了并发处理机制(Communicating Sequential Processes for Java,JCSP);Google在2009年发布的程序设计语言Go也采用了CSP。持续的应用不断为CSP注入新活力。此外,CSP本身也是一个十分活跃的、正在发展的领域,有不少研究人员从事CSP方面的研究。这使得C.A.R.Hoare的那篇论文获得了很好的引用。

上面的两个例子告诉我们:应尽量让自己的论文与更多人的研究相关,并使他们受益。最好是能开辟一个新领域或新方向。当然,要做到像C.E.Shannon和C.A.R.Hoare那样很难。不过模仿一下他们“说段子”的方法也不错:搭台,唱第一出戏,然后让大家一起将戏唱下去,使自己的研究有所传承、延续和扩展。

神行太保小密探

马三爷

马三爷即著名相声表演艺术家马三立(1914—2003年)。他擅长“文哏”和“贯口”表演,创立了独具特色的“马派相声”,代表作有《吃元宵》、《文章会》、《夸住宅》。晚年,马老先生创作了一组脍炙人口的单口相声小段,如《逗你玩》、《家传秘方》、《检查卫生》、《八十一层楼》、《追》。这些小段带有浓郁的马派相声特色,一经推出,便成为观众们百听不厌的经典,将其相声艺术推向了新的高峰。

文森特·梵高

文森特· 梵高

文森特· 梵高(Vincent Willem van Gogh,1853—1890年),荷兰著名画家,后印象派代表画家,表现主义的先驱。他的作品《向日葵》、《星夜》等家喻户晓,《加歇医生的肖像》、《没胡子的自画像》位列全球最昂贵画作前十名。生前,梵高的艺术风格并不被大家认可,一直默默无闻。

4.1.2 高被引论文的内容特征

高被引论文(Highly Cited Paper)是指在一定时间段内(如10年)被引次数名列前茅的论文。高被引论文在内容上有什么特征呢?什么样的内容容易被引用呢?下面是对高被引论文进行分析后得出的一些结论。

论文所论述的科研成果应当是高质量的,在内容上具有以下特征:

1.新问题

一个有意义的新问题的提出会引发大家的关注,也吸引着感兴趣的科研人员去解决这个问题。小的新问题可能会引发一个研究热点,大的新问题可能会开辟一个研究方向。首先提出这个问题的论文无疑会被后来的研究者大量引用。这里举一个例子。

2000年,P.Gupta和P.R.Kumar在IEEE Transactions on Information Theory上发表了一篇题为The capacity of wireless networks的论文。

(被引2620次)P.Gupta and P.R.Kumar,The Capacity of Wireless Networks,IEEE Transactions on Information Theory,46(2),2000:388-404.

这篇论文提出了一个问题:无线自组织网络(Wireless Ad-hoc Network)采用1对1通信模式避免多址接入干扰(Multiple Access Interference,MAI),但这种1对1模式的可扩展性很差。

无线自组织网络在2000—2010年间是一个很活跃的研究领域,该问题提出之后,立刻引起了大家的注意,成为一个热点。随后,这篇论文获得了2620次引用(根据Microsoft Academic Search的统计)。

2.新思路、概念、观点

有价值的新思路、概念、观点会推动科技的发展,甚至开辟新领域。比如:20世纪70年代,美国科研人员提出了封包无线电网络(Packet Radio Networks,PRNETs)的技术思路。后来,这一思想逐步发展成了无线自组织网络。有价值的新概念、观点同样很有意义。提出这些新思路、概念、观点的论文会有很高的引用率。下面的论文就是一个典型的例子。

(被引3611次)Sylvia Ratnasamy,Paul Francis ,Mark Handley ,Richard Karp ,Scott Shenker,A Scalable Content-Addressable Network,Computer Communication Review,31(4),2001:161-172.

在这篇论文中,Sylvia Ratnasamy 等人提出了内容可寻址网络(Content-Addressable Network,CAN)的概念。CAN是一种分布式、P2P(Peer-to-Peer)基础结构,具有自组织、可扩展、容错性好等特点,为实现大规模分布式哈希表提供了思路。随着P2P技术的兴起及在内容分享等领域的应用,CAN得到了进一步研究和扩展。Sylvia Ratnasamy 等人的这篇论文也被大量引用,在发表之后的10年获得了3611次引用(根据Microsoft Academic Search的统计)。

3.争议性、未决问题的解决方案

就有争议的问题发表新学术观点,或者对没有解决的问题提出新解决方案,与同行进行学术、技术争鸣,通常会获得大家的关注。这样的论文也有大量的引用。下面是一个这样的例子。

P2P应用为在网络环境中实现文件的分布式共享提供了方便,但是这些应用也面临一个问题,那就是如何高效地找到存储共享文件的服务器。为了解决这一问题,人们进行了研究,并提出了解决方案。最初的解决方案有4个:CAN、Chord、Pastry和Tapestry。CAN就是前面所说的内容可寻址网络。这4个解决方案都在2001年发表,并在后来的10年内都获得了不错的引用(根据Microsoft Academic Search的统计):CAN被引3611次、Chord被引4481次、Pastry被引1674次、Tapestry被引1238次。

(被引4481次)Ion Stoica,Robert Morris,David Liben-Nowell,David R.Karger,M.Frans Kaashoek,Frank Dabek,Hari Balakrishna,Chord:A Scalable Peer-to-Peer Lookup Service for Internet Applications,ACM SIGCOMM Computer Communication Review - Proceedings of the 2001 SIGCOMM conference,31(4),2001:149-160.

(被引1674次)Antony Rowstron,Peter Druschel,Pastry:Scalable,Decentralized Object Location,and Routing for Large-scale Peer-to-peer Systems,Proceedings of the International Conference on Distributed Systems Platforms and Open Distributed Processing/Open Distributed Processing-Middleware(ODP),2001:329-350.

(被引1238次)Ben Y.Zhao,J.D.Kubiatowicz,Anthony D.Joseph,Tapestry:An Infrastructure for Fault-tolerant Wide-area Location and Routing,Technical Report,University of California at Berkeley Berkeley,CA,USA,2001.

不过当时Tapestry不是以论文而是以技术报告形式公诸于世的。到了2004年,Tapestry的几位提出者在IEEE Journal on Selected Areas in Communications发表了一篇介绍Tapestry的论文。这篇论文后来也获得了587次引用(根据Microsoft Academic Search的统计)。

(被引587次)Ben Y.Zhao,Ling Huang,Jeremy Stribling,Sean C.Rhea,Anthony D.Joseph,John D.Kubiatowicz,Tapestry:a Resilient Global-scale Overlay for Service Deployment,IEEE Journal on Selected Areas in Communications,22(1),2004:41-53.

这些论文就同一个问题提出了不同的解决方案,贡献突出,各有特色。解决方案提出的时间也较早。后来的研究者,比较、分析这些成果,在它们基础上做进一步的研究,甚至推广应用。因此,这些论文都有不错的引用。

4.可被别人借鉴、使用的工具、模型、数据

如果论文论述的模型、工具或提供的数据能够被他人使用、借鉴,那么这些论文会被大量引用。实验方法、仿真工具等属于这类内容。下面举一个例子。

(被引10136次)Sudhir Kumar,Koichiro Tamura,Masatoshi Nei,MEGA3:Integrated software for Molecular Evolutionary Genetics Analysis and Sequence Alignment,Briefings in Bioinformatics,5(2),2004:150-163.

Molecular Evolutionary Genetics Analysis(MEGA)Software是Koichiro Tamura、Daniel Peterson、Nicholas Peterson、Glen Stecher、Masatoshi Nei和Sudhir Kumar设计的一个用于分析DNA及蛋白质序列的软件。2004年,Sudhir Kumar等人在Briefings in Bioinformatics上发表了一篇文章,介绍了MEGA 3.0版本所涉及的统计方法、计算工具、可视化模块、数据输入/输出方法。这款集成化工具软件在生物信息学领域有不错的应用。据Google scholar的统计,Sudhir Kumar等人的这篇文章在发表后的8年内获得了10136次引用。之后,MEGA的设计开发人员又发表了关于MEGA4.0和MEGA5.0版本的论文。

(发表当年被引560次)Koichiro Tamura,Joel Dudley,Masatoshi Nei,Sudhir Kumar,MEGA4:Molecular Evolutionary Genetics Analysis(MEGA)Software Version 4.0,Molecular Biology and Evolution,24(8),2007:1596-1599.

(发表5年被引13011次)Koichiro Tamura,Daniel Peterson,Nicholas Peterson,Glen Stecher,Masatoshi Nei and Sudhir Kumar,MEGA5:Molecular Evolutionary Genetics Analysis using Maximum Likelihood,Evolutionary Distance,and Maximum Parsimony Methods,Molecular Biology and Evolution,28(10),2011:2731-2739.

据Google scholar的统计,2011年发表的那篇关于MEGA5.0的文章,当年即获得了560次引用;2007年发表的那篇关于MEGA4.0的文章,在随后的5年内获得了13011次引用。

5.可再现、可重复的方法、算法

如果论文中所提出的方法是可再现、可重复利用、能够解决一类问题的方法,那么这篇论文的引用率通常会很高。例如:2004年,David G.Lowe在International Journal of Computer Vision上发表了一篇题为Distinctive Image Features from Scale-Invariant Keypoints的论文,提出了一种抽取图像固定特征的方法,用来实现图像的可靠匹配和识别。这个方法简单、可靠,在计算机视觉研究中得到了广泛应用。据Google Scholar的统计,在发表之后的8年内,这篇论文被引用了12728次。

(被引12728次)David G.Lowe,Distinctive Image Features from Scale-Invariant Keypoints,International Journal of Computer Vision,60(2),2004:91-110.

4.1.3 高被引论文的结构特征

常见的科技论文结构大致一样,都是类似IMRaD结构的那种“西八股”。不过,即使是按照同样的结构去写,不同的人写,结果也会有很大差别。记得那一年朋友和我一起买了面包机,各自回去做面包。一样的机器,一样的面粉,一样的配方,可他就是不如我做得好。我的窍门是配料混合的程度、辅料添加的时机要把握好。写论文也是这样,各种成分要搭配合理,重点突出,恰到好处,做到如东家之子,增之一分则太长,减之一分则太短。

高被引论文在结构上有如下特点。

1.问题明确

读者在看摘要、引言时,会关注论文要解决的问题,包括问题本身、问题的意义。很多时候读者并不认为论文的解决方案有多好,但认为所提出的问题很重要,有价值。他会研究该问题,并提出自己的解决方案。因此,要把问题写清楚。

2.核心思想、概念鲜明、突出

核心思想言简意赅,特色概念清晰明确。核心思想、特色概念是论文的文眼,是最容易被引用的内容。将这些内容鲜明、概括、突出地摆出来,不仅易于阅读理解也便于引用。

3.相关工作分析详细、深入

有时候,读者关注相关工作,希望通过这部分内容了解某个问题的研究现状,发现一些值得进一步研究的问题。带有作者评论的、详细的相关工作分析是吸引读者的一个重要内容。

4.“卖点”突出

所谓“卖点”就是论文中最能吸引读者的东西。论文主体结构要为突出“卖点”提供支持。例如:关于系统设计的论文重点论述新设计思想、创新性技术;关于方法的论文将对特色步骤的论述放置在显著位置。总之,要通过合理的论文结构,将有别于类似工作的特点突出出来,使创新点、贡献更加鲜明。

5.讨论客观

讨论部分应有对成果的画龙点睛式总结,明确分析它的长处和短处。可以与已有的类似工作做比较,对自己和他人的工作做出客观评价。讨论可以用一小节单独给出,也可以合并到实验结果分析中,但无论以何种形式呈现,都应清楚、客观。

6.未来工作明确

指明论文中没有解决的问题或研究缺陷,明确下一步工作的重点;或对未来研究方向做出预测。这无疑对关注这篇论文的读者是有益的。未来研究方向是常被引用的内容。因此,应在论文结论部分或用专门的章节将它明确提出来。

总之,要想让论文获得好的引用,应在结构上,将读者可能关心、引用的内容明确、突出地摆在那里。让读者一目了然,易于引用。需要说明的是:上面的这些内容是从引用和结构角度考虑的。除此之外,它们本身的学术、技术价值、意义更重要。毕竟论文不是为引用而写的。仅仅为了引用而写,是写不出好论文的。

酒首先要好。另外,还要摆放在明亮橱窗的显著位置才能吸引更多的顾客,对不对?

神行太保小密探

东家之子

“东家之子”源于战国晚期楚人宋玉的《登徒子好色赋》。在此文中,宋玉用这样一段话来形容邻家女儿的美:“东家之子,增之一分则太长,减之一分则太短;著粉则太白,施朱则太赤;眉如翠羽,肌如白雪;腰如束素,齿如含贝;嫣然一笑,惑阳城,迷下蔡。”意思是:东家的女儿,身材不高不矮,皮肤白里透红,生得恰到好处。眉如翠鸟之毛,肌如白雪,腰身纤细光滑如裹着素帛,牙齿洁白整齐如一串小贝壳;嫣然一笑,可以使阳城、下蔡一带的人们为之倾倒。

4.2 如何提高论文引用率

4.2.1 哪些类型的论文引用率高

哪些类型的论文引用率高?答曰:综述性论文、原创性研究论文、改进性研究论文。

从总体上来看,综述性论文比研究论文更容易被引用;研究性论文中,论述原创性和改进性成果的论文往往有较高的引用。

综述性论文综合、总结、分析了某个主题或领域的现有工作,向读者提供了以下信息:

(1)完整、体系化的知识;

(2)作者对研究进展的分析;

(3)存在的问题及未来的研究方向;

(4)作者对已有工作的评价。

综述包涵的信息量很大,知识系统而成体系,可以使读者很快了解某个问题的背景知识、研究现状;同时综述还包括了作者对研究难点、热点的分析,以及对研究发展趋势的预测。通常,这些内容会获得较好的引用。

下面是几篇有不错引用的典型综述:

(被引14312次)Lawrence Rabiner,A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition,Proceedings of the IEEE,77(2),1989:257-286.

(被引9558次)Christopher J.C.Burges,A Tutorial on Support Vector Machines for Pattern Recognition,Data Mining and Knowledge Discovery,2(2),1998:121-167.

(被引6309次)Anil K.Jain,M.Narasimha Murty,Patrick J.Flynn,Data Clustering:A Review,ACM Computational Survey,31(3),1999:264-323.

(被引3643次)Leslie Pack Kaelbling,Michael L.Littman,Andrew W.Moore,Reinforcement Learning:a Survey,Journal of Artificial Intelligence Research,4,1996:237-285.

这4篇论文依次分别获得了14312次(23年内)、9558次(14年内)、6309次(13年内)和3643次(16年内)的引用(根据Google Scholar的统计)。

研究论文中的原创性、改进性研究论文也是常被引用的论文。原创性研究中所提出的新问题、方法、模型、工具是常被引用的对象。有价值的原创性成果会被大量引用,这一点不必多说,前面已经反复举例说明了。改进性成果是对已有成果的提升、扩展、改造和完善,通常情况下一个成果的改进方案不会只有一种,不同方案的研究者、采用者会对成果进行比较、改进,也会获得不错的引用。

1999年,Charles E.Perkins和Elizabeth M.Royer在第2届IEEE移动计算系统与应用会议(WMCSA’99)上提出了AODV(Ad Hoc On-Demand Distance Vector Routing)协议。这是一个典型的无线自组织网络按需路由协议。AODV协议被发表之后,不少研究人员对它进行了改进和完善。下面仅列举几例(见表4-1)。

♢AODV原创性研究论文

1 Charles E.Perkins,Elizabeth M.Royer,Ad-hoc On-Demand Distance Vector Routing,Proceedings of the 2nd IEEE Workshop on Mobile Computing Systems and Applications(WMCSA’99),1999:90-100.

♢AODV改进性研究论文

2 Elizabeth M.Royer,Charles E.Perkins,Multicast Operation of the Ad-hoc On-Demand Distance Vector Routing Protocol,Proceedings of the 5th Annual ACM/IEEE International Conference on Mobile Computing and Networking,1999,207-218.

3 Mahesh K.Marina,Samir R.Das,On-demand Multipath Distance Vector Routing in Ad Hoc Networks,Proceedings of the 9th IEEE International Conference on Network Protocols,2001,14-23.

4 Sung-ju Lee,Mario Gerla,AODV-BR:Backup Routing in Ad hoc Networks,Proceedings of the 2012 IEEE Wireless Communications and Networking Conference,2000,1311-1316.

5 Manel Guerrero Zapata,Secure Ad Hoc On-demand Distance Vector Routing,ACM SIGMOBILE Mobile Computing and Communications Review,6(3),2002:106-107.

表4-1 AODV原创与改进性论文引用情况

首次被提出时,AODV是一个单路径协议。之后不久,Elizabeth M.Royer和Charles E.Perkins就将它改进为多路径协议MAODV,并在MobiCOM’99上发表了题为Multicast Operation of the Ad-hoc On-Demand Distance Vector Routing Protocol的论文。2000年,MAODV被提交为IETF(The Internet Engineering Task Force)草案。据Google Scholar的统计,Charles E.Perkins和Elizabeth M.Royer关于AODV和MAODV的论文在发表后的13年内分别被引用12928次、1168次。其他研究人员关于AODV改进的论文也有不错的引用。

前面从内容角度分析了不同类型论文(综述性论文、原创性研究论文、改进性研究论文)的引用情况。从发表渠道来看,期刊论文和会议论文在引用率上有什么区别吗?回答是肯定的。统计表明:总体上看,期刊论文要比会议论文更易被引用。

4.2.2 提高论文引用率的技巧

论文引用率除了与研究成果水平有重要关系之外,还与论文受关注的程度密切相关。从某种程度上说,引用率是由论文受关注程度决定的。再好的成果,没有人认识到它的价值和意义,它就很难被引用。有人或许会说“酒香不怕巷子深”,而“酒香,巷子又浅”岂不是更好?

如何使巷子浅些呢?

1.“潮”

什么是“潮”?“ 潮”就是时尚、流行,是潮流的最前沿。潮的东西就有人追,那些人便是潮人。论文也是如此。如果一篇论文处在当前研究热点的最前沿,就会有很多“潮人”阅读、引用。

但要注意“潮”和“非主流”有很大区别。“非主流”的最大特点是不被大多数人所认同。如果论文非主流,恐怕很难有好的引用,除非有朝一日它成为主流或受到普遍关注。

2.美玉于斯,求善贾而沽

玉文化是中国特有的文化,中国人对玉石的喜爱和诠释,西方人是很难理解的。就如他们很难明白“宁为玉碎,不为瓦全”、“化干戈为玉帛”这些词句的意思一样。当你拿一块通灵宝玉给一个西方人时,他可能觉得那就只是一块石头而已。所以,美玉要拿给识货的人。美文如美玉。优秀论文拿给识货的人、需要的人,才能体现出它的价值。

为此,应该积极参加各种与自己研究方向一致的学术交流活动,让同行了解自己的工作。不同于文学作品,科技论文的读者基本上全是同行,他们都是潜在的引用者。将论文拿给识货的同行,这是明智的决定。尤其是在论文浩如烟海的今天,直接将自己的论文推送到同行面前,比让他们大海捞针般在文海中搜索要明智得多。

3.弹古琴还是唱流行歌

如果你是俞伯牙,恐怕只有钟子期能听懂你的《高山》、《流水》。如果你是流行歌王Michael Jackson,那5岁的小孩都有可能学唱两句你的《Billie Jean》和《Beat It》。但你不能说《高山》、《流水》就没有《Billie Jean》和《Beat It》好。因为俞伯牙做的本来就是一种小众艺术。

论文也是这样。如果现在和你同属一个研究领域的人很少,并且将来这个群体也不会扩大;那你写的论文恐怕很少有人引用。因为本来它的潜在读者就不多。相反,如果和你同属一个研究领域的人非常多,或者你从事的是一个热点问题的研究,那你的论文被引用的可能性就会很大。这是很浅显的道理。

4.论文名片很重要

题目、摘要和关键词是论文的名片。读者会根据题目、摘要或关键词来查找、浏览论文。如果文不对题,摘要混乱,关键词不合理,就会影响论文的精确查找。论文都找不到,何谈引用?找到了,文不对题,摘要都无法看懂,当然也不会引用。

5.署名的学问

著名科学家署名的论文会引起大家的关注。非著名科学家的论文,有多个作者的会比只有一个作者的引用率高。著名科学家署名的、多个作者的论文也是如此。因为,每个作者都可能对文章进行交流,这无形中增加了论文被引用的可能性。此外,如果作者们延续论文中的工作,也会增加自引的可能性。当然,这里的作者是指对论文所述研究有实质贡献且以后继续从事这方面研究的人。如果某个作者对论文内容一无所知或者写完这篇论文就改行去打酱油了,自然不会对提高引用起什么作用。作者应当在某个方向上有持续、稳定、系统的研究,这对提高论文引用率是非常有益的。

6.好档期

电影是有档期的。在中国,春节档期上映的电影上座率高。因此,就有了贺岁片这一说。导演们也都想让自己的电影在上座率高的档期上映。论文也是如此。据统计,同一份期刊刊载的论文,头几期的论文要比年末几期的论文引用率高。

7.老妪能解

唐代诗人白居易被称为“诗魔”、“诗王”。他的诗通俗易懂,连老太太们都能看明白,被称为“老妪能解”。因此,他的诗不仅上至宫廷下至市井被广为传唱,而且远播朝鲜、日本。在日本人心目中白居易是中国唐代诗坛最有影响力的人物。他“同是天涯沦落人,相逢何必曾相识。”的诗句被各国人士广泛引用。科技论文虽不同于文学作品,但可读性也非常重要。谁会乐意阅读逻辑不清、晦涩难懂的论文?更不用说引用了。科技论文不必像诗歌那样生动感人,但应文字严谨、条理清晰、语句流畅,易于同行阅读理解。

8.美食一条街

北京城有条著名的美食去处“簋街”。街上饭馆一家挨着一家,慕名而来的食客如过江之鲫,每逢傍晚各家常常爆满。有的甚至将执著的食客们“爆”在了店门外,让他们在那里排号等座。扎堆的餐馆有生意,这似乎是餐饮业的规律。其实,也有论文一条街,即是国内外的各个论文数据库。那里是论文扎堆的地方,也是读者扎堆的地方。将论文加入这些数据库,将有助于读者找到并引用论文。

9.大舞台

CCTV的春节联欢晚会是个大舞台。因为,它面向全中国乃至全球的广大观众,在春节这个非常特殊的时刻播出,台上演员的表演很容易引起大家的关注。春晚捧红了众多明星。这也是大家边骂春晚边争上春晚的一个原因。论文也有大舞台,那就是有影响的权威的期刊、会议。这些期刊、会议有众多的读者和参与者,在这样的舞台上发表论文,论文受关注、被引用的可能性更大。

10.长文

篇幅对论文引用有一定影响。Roosa Leimu等人的研究表明长文比短文更容易获得引用Roosa Leimu and Julia Koricheva,What Determines the Citation Frequency of Ecological Papers?Trends in Ecology and Evolution,20(1),2005:28-32.

11.合作研究

合作研究可以让更多的人了解自己的工作,阅读自己的论文。就如A明星开演唱会,请B、C、D明星来做友情客串助演,结果4个明星的粉丝都来看,这显然要比只有A自己的粉丝参加要强很多。有些团队研究活动很活跃,每年都发表为数不少的高质量论文。这些团队发表的论文大部分都有不错的引用。与这样的团队合作,无疑会提升自己的研究水平,并在论文引用上受益。当然,国际合作还有助于扩大在国际上的影响。

对ISI Web of Science收录的论文进行分析,发现:论文发表有“扎堆”现象,即高质量论文集中在一些研究团队身上,这些团队发表的论文无论质量还是数量都是相当可观的。与这样的团队合作有助于提升引用率。

12.跨学科

跨学科的研究成果容易被引用。就如一个混血儿,父母双方的族人都会喜欢他,照顾他。例如,C.E.Shannon发表的那篇题为A Mathematical Theory of Communication的高被引论文,至少跨越了数学、计算机科学两个学科,得到了这些学科相关科研人员的引用。再如,生物与信息技术的交叉学科生物信息学(Bioinformatics)是一个容易产生高被引论文的领域。现在,只要是与Bio(生物)沾边的论文似乎都很容易被引用,如Biochemistry(生物化学)、Biophysics(生物物理学)、Biomechanics(生物力学)、Bioenergetics(生物能学)等方面的论文。

13.开放共享

将科研成果开放共享,是一个扩大论文影响,提高引用率的有效方法。例如:前面提到的用于生物信息学研究的软件MEGA就是一款开放共享的免费软件。这为MEGA的论文带来了持续增长的引用率。将论文共享并免费下载,同样也会对提高引用率产生正面影响。

14.数学公式对引用率有负面影响

对于这个问题,英国布里斯托尔大学生物科学学院(School of Biological Sciences,University of Bristol)的研究人员Tim W.Fawcett博士(Research Fellow)和Andrew Higginson博士(Research Associate)曾做过专门研究,结果表明:

论文中数学公式过多对论文引用率有显著的负面影响。总的来看,论文正文中每页每增加1个数学公式,它的被引用次数就会下降28%。有大量数学公式的长文更容易被其他理论性(Theoretical Papers)论文引用,不过这是要付出代价的。因为,在这类有大量公式的论文正文中,每页每增加1个数学公式,非理论性论文(Nontheoretical Papers)对该文的引用就会降低35%。另外,他们发现:论文附录中的数学公式不会对论文引用有影响Tim W.Fawcett,Andrew D.Higginson,Heavy Use of Equations Impedes Communication among Biologists,Proceedings of the National Academy of Sciences of the United States of America,www.pnas.org/cgi/doi/10.1073/pnas.1205259109,2012:1-5.

尽管上述研究结果是在对生物学领域的论文调研分析的基础上得出的,但对信息科技论文写作也有一定的借鉴价值。当然,数学方面的论文或与数学密切相关的论文另当别论。

15.注意参考文献的作用

读者大都关注引用过自己文章的论文,并有引用它们的倾向。从这个角度讲,一篇论文的参考文献越多,被引用的机会就越大。反之,则会小。

16.一个好名字很重要

如果在论文中提出了有价值的新思想、概念、方法、结构、模型、算法、协议等,一定要给它起一个易读、易懂、易记的好名字。这样便于读者引用。有时候,读者看完一篇论文,想引用,可是发现论文中的成果没有名字,引用起来很不方便,只得写上一大堆叙述性文字。成果名字的作用就如人名的作用。例如:如果不知道牛同学的名字,在提到他的时候,你只能用描述的方法指代他:“那个穿蓝T恤衫、红裤子、咖啡色鞋子,留短发,圆脸盘,小眼睛,性格憨厚的、K教授的年轻男研究生”。是不是很麻烦?如果知道他的名字,直接说牛同学就可以了。成果也一样,显然有名字,引用起来要方便很多。当然,也有利于成果的宣传、传播。

对于如何提高论文引用率,有几个误区需要澄清。

(1)在高影响因子期刊上发表的论文引用率高。

不一定。高影响因子期刊也有发表数年却一次引用也没有的论文。高影响因子期刊只是为提高论文引用率提供了一个好的平台。同样地,影响因子不怎么高的期刊发表的论文也不见得引用率都低。

(2)论文被SCI、EI索引之后,引用率会高。

不一定。论文被SCI、EI索引后,可以使更多的读者查找到论文,增加被引用的可能性,但这并不意味着所有被SCI、EI索引的论文引用率都高。

(3)引用率高的论文水平一定高。

不一定。引用率反映的是论文受关注的程度,和论文水平并不成正比。高水平论文不受关注,引用率不会高;低水平论文受关注,引用率也会很高。这和互联网上博客的访问量很相似。正面消息也好,负面消息也罢,只要博客发布的消息成为网民关注的焦点,这个博客的访问量、转载、引用就会激增。此外,也确有一些人为因素可以拉升引用率,比如朋友间友情赞助式的互引。

神行太保小密探

俞伯牙、钟子期与《高山》、《流水》

俞伯牙与钟子期是我国春秋战国时期的两个人物。《吕氏春秋》和《列子》中记载了他们的故事。俞伯牙是晋国的上大夫,善弹古琴,被称为“琴仙”,但无人能懂他琴声中的真意;钟子期是一位樵夫,他不仅能听懂俞伯牙的音乐,而且能听出琴声中饱含的感情和意义;两人成为知音好友。后来,钟子期去世,俞伯牙在他的墓前弹了一曲《高山流水》,便挑断琴弦,从此不再弹奏。《高山流水》是中国十大古曲之一。原为一曲,唐代之后分为《高山》和《流水》两曲。中国古琴演奏家管平湖演奏的《流水》曾被录入美国太空探测器“旅行者一号”搭载的金唱片,并于1977年9月5日发射到太空,在茫茫宇宙寻找人类的知音。

Michael Jackson与《Billie Jean》、《Beat It》

Michael Jackson是一位具有世界影响力的美国流行音乐歌手。他非常成功,曾多次获“格莱美奖”(Grammy Awards),被誉为流行音乐之王,也是20世纪80年代西方流行文化的标志性人物。据吉尼斯世界纪录统计,Michael Jackson在1982年12月1日出版的专辑Thriller,截至2006年销售了1.04亿张,是当时世界上销量最大的专辑。该专辑被认为具有“文化、历史和审美上的意义”,在2009年被美国国会图书馆列为国家级典藏。《Billie Jean》和《Beat It》是Michael Jackson的两首代表作。《Billie Jean》是其音乐生涯中最成功的单曲,而《Beat It》的公益作用为他带来了美国总统里根颁发的“世界杰出青年奖”、“特别贡献奖”。

4.2.3 如何突出论文的卖点

创新与贡献是论文卖点的重要体现,也是影响论文评价、引用的重要因素。因此,应将论文的贡献、创新放在读者最容易读到的地方。为了使之更加突出,可以从不同角度反复强调这些内容。通常情况下,创新、贡献等内容要放置在摘要、引言将要结束部分、后置的相关工作部分以及结论部分。

Exact Top-K Queries in Wireless Sensor Networks是期刊IEEE Transactions on Knowledge and Data Engineering中的一篇论文。在这里,我们不对这篇论文做理论或技术方面的评价,仅以它为例,从写作角度,分析怎样才能更好地将创新、贡献等内容表述清楚。

这篇论文关注的是无线传感器网络中的top-k查询问题,主要成果是处理top-k查询的新算法EXTOK。摘要对最核心的内容进行了介绍,包括贡献和创新点。对此,该文的摘要是这样阐述的:

Our primary contribution in this context is EXTOK,a provably correct and topologyindependent new filtering-based algorithm for processing exact top-k queries.As a secondary contribution we confirm a previous result of ours by showing that the efficiency of top-k query processing algorithms,including EXTOK,can be further improved by simply choosing a proper underlying logical tree topology Baljeet Malhotra,Mario A.Nascimento,and Ioanis Nikolaidis,Exact Top-K Queries in Wireless Sensor Networks,IEEE Transactions on Knowledge and Data Engineering,23(10),2011:1513-1525..

由于篇幅限制,摘要部分只能对创新点、贡献进行最精练、概要的表述,以便读者一眼便能抓住全文的关键。因此,这一段用2句话概括了2点主要贡献:①EXTOK算法;②证实了合理的逻辑树状拓扑可以提高top-k查询处理算法的效率。

除了摘要,作者在引言部分的倒数第2段又阐述了该文的主要贡献:

In this paper,we offer the following contributions:we present EXTOK,a provably correct filtering-based algorithm that consistently outperforms FILA,the current state-of-the-art solution;for instance,our simulation(using both synthetic and real data sets)shows an improvement on the network’s lifespan by a factor of four.Unlike FILA and without any extra energy-cost overhead,our algorithm is capable of handling ties and guarantees exact answers as well.FILA also assumes a more strict communication model,where dissemination of any message from the sink to the nodes is achieved using a single hop communication.EXTOK,on the other hand requires no such assumption,and does not rely upon any specific underlying tree topology.Nonetheless,we explore the initial results in and confirm that there are topologies that are better suited than others for processing top-k queries in WSNsBaljeet Malhotra,Mario A.Nascimento,and Ioanis Nikolaidis,Exact Top-K Queries in Wireless Sensor Networks,IEEE Transactions on Knowledge and Data Engineering,23(10),2011:1513-1525..

这部分对创新及贡献的阐述实际上是对摘要中对应内容的扩展:除了对摘要中2个要点的表述之外,增加了与相似工作FILA算法的对比,指出EXTOK比FILA在能耗等方面要优越。这段阐述使读者对论文创新点的认识更加具体。

有时候,相关工作部分也会再次对贡献与创新点进行阐述。这时,相关工作不是置于论文开始部分而是置于论文后部,结论部分之前的位置。主要是通过与已有工作的比较体现论文的创新与贡献。通常这种创新点的描述穿插在与其他工作的比较中,并有明显的标志性语句。例如:

...Our work differs from the ones above in a number of ways as discussed next.

(1)The recently proposed FILA uses range-based filters,whereas we use single-valued filters.As consequence FILA may return approximate values of sensors,as long as their values remain within their filtering range,thus leading to approximate answers;in contrast EXTOK’s answers are guaranteed to be exact.Another difference that distinguishes our work from FILA is that we do not make the simplifying assumption of a single-hop broadcast communication between the root and nodes;instead we make a more realistic assumption of multihop communication between all nodes in the WSN.Nevertheless,even in the single-hop broadcast setup,EXTOK’s performance is significantly better than that of FILA’s as shown in our extensive experimental study.

(2)...Silberstein et al.propose solutions that combine the idea of temporal and spatial suppression for continuously collecting all sensor values from the WSN.Although related,this problem is fundamentally different than the problem that we consider.…Silberstein et al.carried out a detailed investigation of MAX(top-1),which unfortunately cannot be easily generalized.In addition,neither of these proposals deal properly with possible tied values.

(3)Finally,none of the above filter-based solutions pay due attention to the importance of logical topologies that are built from a given network(physical topology).We have already shown the importance of logical topologies in terms of energy for query processing within WSNs Baljeet Malhotra,Mario A.Nascimento,and Ioanis Nikolaidis,Exact Top-K Queries in Wireless Sensor Networks,IEEE Transactions on Knowledge and Data Engineering,23(10),2011:1513-1525..

这几段从三个方面将EXTOK算法与FILA算法及Silberstein等人提出的方法做了对比,突出了EXTOK算法的优势。

在结论部分,同样有对创新和贡献点的阐述,但阐述是结论性的。例如:

...Leveraging on the properties of a DST we proposed a new algorithm,EXTOK and proved its correctness.Our simulation,using real and synthetic data sets,revealed the effectiveness and superior efficiency of the combination EXTOK-DST for processing the top-k queries in WSN…Baljeet Malhotra,Mario A.Nascimento,and Ioanis Nikolaidis,Exact Top-K Queries in Wireless Sensor Networks,IEEE Transactions on Knowledge and Data Engineering,23(10),2011:1513-1525.

表4-2给出了这篇论文创新与贡献点的分布。这个分布所遵循的结构基本上也适用于其他论文。通常,读者希望在这些大家公认的合理位置看到论文的创新与贡献。如果创新与贡献点没有在预期的位置出现,会给人以创新、贡献不突出,或没有创新、没有价值的感觉。

表4-2 论文创新与贡献点的分布举例

当然仅在这些位置阐明创新、贡献是不够的,还应提供它们的理论或技术细节。因为当论文的创新点吸引了读者之后,读者关心的是:创新、贡献是否真实可信,如何从中受益。

理论或技术细节是对创新与贡献点的有力支撑,是对读者有价值的重要内容,关键细节的缺失会影响读者对论文的评价。因此,对论文所述成果的关键部分应有充分的论述,并有充分的论据支持论文的结论。如果缺少关键细节,那么读者将无法验证、参考论文给出的成果;如果论文中没有充分的论据支持结论,那结论将是一个不可信的结论。

下面还是以前面IEEE Transactions on Knowledge and Data Engineering中的那篇论文为例说明关键细节在论文中的作用及如何在论文中安排细节性内容。

从摘要可以看出,这篇论文的主要贡献是提出了一个处理top-k查询的新算法EXTOK。作者分析了该算法的效率,最后给出了该算法的仿真结果优于现有算法的结论。

显然,EXTOK算法是论文的重点。论文第1节、第2节介绍了研究背景、研究动机。之后,第3节从步骤、正确性角度,全面论述了该算法。首先给出了算法的基本思想和原理,然后分层进行了阐述:第3.1节分成3.1.1—3.1.4四个小节,按阶段详细分析该算法;第3.2节证明了算法的正确性,并给出了相关定理。假设作者只用伪码列出算法,没有给出必要的细节,读者恐怕很掌握该算法并从中获益,也很难领会算法的创新和贡献。

在论述关键细节之后,针对结论,作者用真实数据集、人工合成数据集对EXTOK算法和相似算法的性能进行了评测、比较。评测指标包括传输代价、能耗代价等4个方面,仿真实验涵盖了两种网络拓扑结构。实验完成后,作者用4个小节从4个方面,详细、深入地分析了实验数据。充分、翔实的数据、深入的分析为结论的正确性、真实性提供了有力支持。

4.3 何谓热点论文

何谓热点论文(Hottest Paper)?答曰:发表之后2年内即被大量引用的论文。通常,热点论文反映了当前的研究动态和前沿问题,反响大,在短时间内有较高的引用率。

下面是两个热点论文的例子。

(1)2010年,Tim Roughgarden在Communications of the ACM上发表了题为Algorithmic Game Theory的论文。该论文介绍了由博弈论(Game Theory)与算法设计(Algorithm Design)交叉形成的算法博弈论(Algorithmic Game Theory,AGT)。AGT发端于1999年Noam Nisan 和Amir Ronen的研究,在2010年还是一个刚诞生不久的领域。在互联网环境中,AGT有广阔的应用前景,同时又有不少理论问题需要探讨。理论问题与应用需求的完美结合使AGT受到了广泛关注。Tim Roughgarden的论文发表之后的2年内就被引用了260次(根据Microsoft Academic Search的统计)。

(2)软件事务内存(Software Transactional Memory,STM)是一种与数据库事务(Database Transactions)类似的共享内存并发访问控制机制。该机制由Nir Shavit和Dan Touitou在1995提出,从2005年左右开始对它的研究和应用逐年升温。2011年,Andrew Birrell、Tim Harris和Michael Isard在ACM Transactions on Programming Languages and Systems发表了一篇题为Semantics of transactional memory and automatic mutual exclusion的50页长文,提出了一种语义和类型系统,用来实现微软提出的Automatic Mutual Exclusion编程模型。这篇论文在发表的当年即被引用了49次(根据Microsoft Academic Search的统计)。

下面就是这里提到的那两篇论文。

Tim Roughgarden,Algorithmic Game Theory,Communications of the ACM,53(7),2010:78-86.

Andrew Birrell,Tim Harris,Michael Isard,Semantics of transactional memory and automatic mutual exclusion,ACM Transactions on Programming Languages and Systems,33(1),2011:Article No.2.

这两篇论文都参与了“热点话题”的“讨论”。一篇对一个十分活跃的技术领域进行了介绍;一篇就一个大家普遍关注的问题,提出了新解决方案。它们对“热点话题”的参与短期内成为“科学围观”的焦点,并得到了较好的引用。

中国现代作家张爱玲有句名言“出名要趁早”。写热点论文也是如此。对于热点问题应当尽早进入。论文发表是需要时间的。热点有一个特点,那就是在短期内会有大量有关它的论文发表。因此,早发表的论文会受到更多关注,获得更多引用。

除了参与“热点话题”之外,还要善于发现能激发同行兴趣的问题,创造大家关注的新热点。这样就会产生新的热点论文。

那么,是不是思想、成果越新,就越容易成为热点论文呢?不是。

从本质上讲,决定一篇论文能否成为热点的关键是它能否被大家接受和关注。这和艺术品走红没什么两样。荷兰画家文森特·梵高(Vincent Willem van Gogh,1853—1890年)的创作思想和艺术风格超越了他所生活的时代。生前,他的作品并不被世人接受。在去世之后,梵高的作品才引起了大家的广泛关注,他成为对20世纪西方绘画产生最深远影响的画家。科学研究的热点也是如此。如果一项研究大大超越了当时大多数同行的认知能力或在当时的热门研究领域之外,那它很可能被忽视。1866年,奥地利遗传学家孟德尔(Gregor Johann Mendel,1822—1884年)在期刊Proceedings of the Natural History Society of Brünn上发表了一篇题为Experiments on Plant Hybridization的论文。这篇论文后来导致了遗传学的诞生。但是,孟德尔这篇论文的内容不属于当时占统治地位的研究领域,并大大超出了当时科研人员的认知能力。因此,长时间被忽视。直到1900年,人们才认识到它的重要性,此时孟德尔已经去世15年了。在发表之后的35年里,这篇现在已非常著名的论文只被引用过3次。

所以,能否成为热点与创新没有必然联系。有些超越时代的创新反而不能在当时成为热点。有的热点论文在经过一段时间后,热度退去,不再有人引用;有的则成为经典,经历很长时间之后仍被大量引用。这要看论文所述成果的生命力。

神行太保小密探

张爱玲

张爱玲(1920—1995年),本名张煐,中国现代著名作家。她一生创作了不少小说、散文和电影剧本。美国哥伦比亚大学东亚文学系(Department of East Asian Languages and Cultures,Columbia University)教授夏志清(Hsia Chih-tsing,1921年—)在其所著的《中国现代文学史》(A History of Modern Chinese Fiction)中,将张爱玲的小说《金锁记》称为中国最优秀的中篇小说。张爱玲家世显赫,她的曾祖父是中国历史上颇具争议的著名人物李鸿章,父亲是清末重臣张佩纶。“出名要趁早”一语出自张爱玲的散文《<传奇>再版的话》。

著名作家张爱玲

神行太保小密探

孟德尔

孟德尔(Gregor Johann Mendel,1822—1884年),奥地利遗传学家,现代遗传学之父,著名的孟德尔定律的发现者。他的研究成果长期不被大家认可。1900年,荷兰生物学家许霍·德弗里斯(Hugo Marie de Vries,1848—1935年)发现了一个遗传学规律,于是,德弗里斯去查资料,想看看这个成果是不是首创。结果,他发现孟德尔早在35年前就发现了这一规律。同样是在1900年,德国植物学家卡尔·科伦斯(Carl Erich Correns,1864—1933年)和奥地利农学家埃里克·冯·切尔马克(Erich von Tschermak-Seysenegg,1871—1962年)也都独立发现了孟德尔早已发现的遗传规律。孟德尔从此声名远播。德弗里斯、科伦斯和切尔马克三人也因重现孟德尔的研究成果(Rediscovery of Mendel)而出名,在科学史上被称为“孟德尔豌豆实验的三位重现者”。非常有趣的是,孟德尔当年取得研究结果之后,曾将自己的发现告诉了科伦斯的老师著名瑞士植物学家卡尔·内格里(Carl Wilhelm von Nägeli,1817—1891年)。但内格里并没有认识到这一发现的重大意义,还给孟德尔大泼冷水,劝他不要再继续无聊的研究。孟德尔的成果被世人公认后,内格里因劝阻孟德尔“有功”而名垂科学史。据说,这是他现在仍然非常知名的最主要原因。

遗传学之父孟德尔

4.4 与引用率相关的科研评价指标及提升方法

4.4.1 评价指标:H指数、G指数及其他

H指数(H index)、G指数(G index)是用来评估研究人员科研能力的两个指标。

2005年,美国加利福尼亚大学圣地亚哥分校物理系(Department of Physics,University of California,San Diego)教授Jorge E.Hirsch首次提出了H指数这一概念。他是这样定义H指数的。

H指数

A scientist has index h if h of his/her Np papers have at least h citations each,and the other(Np − h)papers have no more than h citations each Jorge E.Hirsch,An Index to Quantify an Individual’s Scientific Research Output,Proceedings of the National Academy of Sciences of the United States of America,102(46),2005:16569-16572..

也就是说,如果一个科研人员发表的所有论文中,有h篇每篇都至少被引用了h次,那么他的H指数就是h。这h篇引用次数大于等于h的论文被称为这个科研人员的H指数核心(H-core)论文。H指数实际上就是一个科研人员的H指数核心论文数。

例1

截至今天,K教授一共发表了150篇论文,其中有66篇这样的论文,即66篇中的每一篇都至少被引用了66次,那么K教授的H指数就是66。这66篇论文就是K教授的H指数核心论文。

H指数的高低说明了什么?它有什么特点和缺陷呢?

H指数的高低反映了一个科研人员发表论文的数量、质量和受关注程度,是一个综合的量化指标。除了用于评价科研人员研究水平之外,H指数有时还被用来评价研究机构、期刊等的学术水平。

H指数有以下特点。

(1)反映了研究人员的论文产出与学术水平。

(2)H指数是一个只增不减的指数。例如:如果一个人的H指数是66,再过10年,他的H指数最差也还是66,不会比这个数字低。

H指数有以下缺陷。

(1)没有考虑论文合作者(Co-author)的数目。例如:一篇论文有5个作者,另一篇只有1个作者,这两篇论文在计算H指数时所起的作用是一样的。

(2)作者的高被引论文在计算H指数时作用不明显。一个科研人员发表了一篇反映他最高水平的论文,获得了非常高的引用次数,但这篇论文一旦被记入H指数核心之后所起的作用和其他核心论文的作用是一样的。

(3)与论文数量关系密切,不能反映论文数量少但单篇引用次数都很高的作者的学术水平。

针对这些缺陷,人们对它做了改进,又提出了一些其他的指数,如G指数、Hbar指数(Hbar Index)、M指数、A指数、R指数等。

2010年,Hirsch教授提出了Hbar指数,解决了论文合作者数的问题。他对Hbar指数是这样定义的。

Hbar指数

A scientist has index Hbar if Hbar of his/her papers belong to his/her Hbar core.A paper belongs to the Hbar core of a scientist if it has≥Hbar citations and in addition belongs to the H-core of each of the coauthors of the paper Jorge E.Hirsch,An Index to Quantify an Individual’s Scientific Research Output that Takes into Account the Effect of Multiple Coauthorship,Scientometrics,85(3),2010:741-754..

也就是说,如果一个科研人员发表的所有论文中,有hbar篇每篇都至少被引用了hbar次,并且这hbar篇中的每论文都属于这篇论文的所有合作者的H指数核心,那么他的Hbar指数就是hbar。这hbar篇论文被称为他的Hbar指数核心论文。Hbar指数实际上就是一个科研人员的Hbar指数核心论文数。

例2

K教授发表的所有论文中有66篇每篇都至少被引用了66次,此时他的H指数是66。为了方便说明我们将K教授的66篇H指数核心论文编号1至66。其中,第1篇论文有牛同学、牛三斤两个合作者,他们的H指数分别是25、36。这样,第1篇论文属于牛同学、牛三斤的H指数核心,所以被计入K教授的Hbar指数核心。第2篇论文有牛二斤、牛四斤、牛五斤三个合作者,他们的H指数分别是78、68、16。这样,第2篇论文属于牛五斤的H指数核心,但不属于牛二斤、牛四斤的H指数核心,所以不能被计入K教授的Hbar指数核心。按照这样的方法计算下去K教授的Hbar指数核心论文为58篇,他的Hbar指数为58。

不难看出,Hbar指数比较难理解,计算起来了很不方便。就连Jorge E.Hirsch自己也这么认为。

2006年,比利时哈塞尔特大学(Hasselt University)教授、Journal of Informetrics主编Leo Egghe提出了G指数,目的是克服H指数不能反映高被引论文的缺陷。Egghe教授对G指数的定义如下。

G指数

A set of papers has a g-index g if g is the highest rank such that the top g papers have,together,at least g2 citations.This also means that the top g+1 papers have less than(g+1)2 papers Leo Egghe,Theory and Practise of the G-index,Scientometrics,69(1),2006:131-152..

也就是说,将一个科研人员发表的论文按被引次数降序排序,如果前g篇论文的被引次数之和大于等于g2,那么他的G指数就是g。

例3

表4-3是Egghe教授举的一个计算G指数和H指数的例子Leo Egghe,Theory and Practise of the G-index,Scientometrics,69(1),2006:131-152.

表4-3 科研人员A的G指数计算举例

注:TC为每篇论文的引用次数,为累计引用次数。

在这个例子中,科研人员A发表了20篇论文,按每篇论文的引用次数(TC)降序排序,排序数记为g,计算累计引用次数()及序数的平方g2。当计算到第19、20篇论文,即g=19,g=19+1时,192=361,,而(19+1)2=400,。所以科研人员A的G指数为19。另外,因为A的20篇论文中一共有13篇每篇的引用次数都大于等于13,所以他的H指数为13。

在前面介绍的各种指数中,目前采用较多的是H指数和G指数。

4.4.2 如何提高H指数

H指数与作者的科研水平密切相关,除此之外还受一些其他因素的影响。平时注意这些影响因素,采取一定的策略,有助于提高H指数。

1.提升论文的单篇引用次数

H指数与论文的单篇引用次数有关。在论文数量较多,单篇引用次数较少的情况下,提升单篇引用次数会使H指数上升。前面已经讨论了如何提升论文引用率的问题,这里就不再讨论了。

2.提升发表论文的数量

发表论文的数量是H指数的一个瓶颈。也就是说,一个研究人员的H指数最大就是他发表论文的总数。同时,在论文单篇引用次数较高的情况下,论文数量少会使H指数变小。

例1

这里是一个H指数受发表论文数量限制的例子。

牛同学发表了10篇论文,每篇有10次引用,牛三斤发表了6篇论文,每篇都至少被引用了300次。但牛同学的H指数是10,牛三斤的H指数是6。如果两人发表的论文单篇引用次数都在300次以上,牛同学的H指数还是比牛三斤的高。

3.强强联合,合作发表

H指数是由论文发表数量和单篇被引次数决定的,一篇论文有多少作者对它没有影响。与高产、高被引论文作者合作发表论文会提升H指数。

例2

这里是一个联合发表论文提高H指数的例子。

2009年,牛同学的H指数为6,但也有6篇引用次数超过13次的论文。他的研究合作伙伴牛二斤、牛三斤、牛四斤都是高水平研究人员,发高被引论文的能力很强。2010—2012年间,牛二斤、牛三斤、牛四斤分别以第一作者身份发表了2、2、3篇论文,每篇论文都被引用了至少13次。由于牛同学参加了他们的工作,所以这些论文也都署了他的名字。这样,到了2012年末,牛同学被引次数超过13的论文就达到了13篇,他的H指数由6提升为13。在这个过程中,他与牛二斤、牛三斤、牛四斤合作的7篇论文起了很大作用。

4.合理自引(Self-citation)

合理自引会提高H指数。德国波恩大学进化生物学与生态学系(Department of Evolutionary Biology and Ecology,University of Bonn)的Leif Engqvist博士和Joachim G.Frommen博士曾研究过自引与H指数的关系。他们的研究结果表明:自引对H指数有很大影响Leif Engqvist,Joachim G.Frommen,The H-index and Self-citations,Trends in Ecology and Evolution,23(5),2008:250-252.。尤其是H指数较低的人,自引会大大提升他们的H指数。不过,动机不纯的自引是不提倡的。有些研究机构在计算H指数时会将自引去掉。

4.4.3 如何提高G指数

前面谈到的H指数提升策略对改善G指数也有帮助。例如,增加论文发表数量,提升论文的单篇引用次数、联合发表论文等。

德国开姆尼茨工业大学物理研究所(Institut of Physics,Chemnitz University of Technology)的Michael Schreiber教授曾研究过自引对G指数和H指数的影响。他的研究结果表明:自引对G指数的影响比对H指数的影响更显著Michael Schreiber,The Influence of Self-citation Corrections on Egghe’s G-index.Scientometrics,76(1),2008:187-200.。他建议在计算G指数时排除自引。合理自引是可以的。研究工作是有连续性的,自引体现了这种连续性。另外,在后继工作中,如果用到了自己以前发表的成果,应当标注引用,这是必须要做的,否则会被视为自我剽窃。但如果自引率太高,也会被同行视为是研究水平不高的表现。到底自引率为多少比较合适?没有一个统一的标准。Thomson Reuters在计算期刊影响因子时认为期刊自引不超过20%是合理的。这个数据可以作为论文自引的参考。

除此之外,高被引论文对G指数影响显著,增加高被引论文数量会使G指数迅速增加,同时也使G指数的提升变得容易。

例1

这里以K教授、牛同学为例说明G指数的计算方法。

表4-4 K教授的G指数计算

注:TC为每篇论文的引用次数,为累计引用次数。

由表4-4可以看出K教授发表了9篇论文,他的G指数为7。

表4-5 牛同学的G指数计算

注:TC为每篇论文的引用次数,为累计引用次数。

由表4-5可以看出牛同学发表了9篇论文,他的G指数为9。实际上,牛同学除了有一篇论文的被引次数比K教授论文的高之外,其他论文的被引次数都不如K教授论文的被引次数高。但这篇被引300次的论文在G指数计算中起了很大作用。

在这种情况下,牛同学比K教授更容易提升他的G指数。也就是:即使牛同学再发表一些引用次数很低的论文也很容易使他的G指数上升;但K教授要想提升他的G指数就比较困难。例如:牛同学只要发表8篇引用次数只有1的论文,就能将他的G指数由9提升到17,并且每增加一篇这样的论文,他的G指数就会增加1;而K教授必须在增加一篇论文的同时让引用增加8次的才能使G指数增加1,即由7上升到8。

4.5 对引用率的几个错误认识

4.5.1 高被引论文的误区

论文引用率是科研评价中常见的一个重要指标,但仅凭论文引用率并不能全面、正确地评判一个人的研究水平。除了成果质量这一重要因素,还有很多因素会影响一篇论文的引用。不同类型、不同学科论文的引用率存在很大差异。此外,高水平论文或高水平科研人员写的论文的引用率也不见得一定都高。单纯用论文引用率来衡量、比较两个科学家的研究水平和贡献不免有些偏颇。

不同学科、不同研究方向的论文在引用率上差距悬殊。对生物、化学、计算机科学的论文引用情况进行统计分析(根据Microsoft Academic Search的统计,统计截止时间2011年12月31日),三个学科中单篇引用率(Citation Rate of Individual Paper)最高的论文如表4-6所示。

表4-6 生物、化学、计算机科学高被引论文比较表

从表4-6可以看出:生物学领域单篇引用次数最多的是Ulrich K.Laemmli发表的一篇论文,累计被引73590次;化学领域单篇引用次数最多的是M.Bradford发表的一篇论文,累计被引24952次;计算机科学领域单篇引用次数最多的是William H.Press等人发表的一篇论文,累计被引19967次。生物学论文的单篇引用率最高,计算机领域论文的单篇引用率最低。但谁都不能说计算机和化学领域科技工作者的成果比生物学领域科技工作者的成果差,也不能说William H.Press的研究水平没有Ulrich K.Laemmli或M.Bradford的高。

论文引用率的学科差异还体现在期刊的影响因子上。例如:医学领域影响因子最高的期刊是CA-A Cancer Journal for Clinicians,影响因子为94.333;计算机科学领域影响因子最高的期刊是ACM Computing Surveys,影响因子为8.000。(以上期刊的影响因子数据源自Thomson Reuters的2010 Journal Citation Reports Science Edition。)

即使是在同一学科中,不同研究方向上论文的引用率也存在差异。这与某研究方向的活跃程度、研究人员的多少有一定关系。

除了不同学科、方向的论文在引用率上有差异之外,不同类型的论文在引用率上也有差异。从总体上看,综述性论文比研究性论文的引用率要高。这直接影响到期刊的影响因子。例如:计算机科学领域影响因子最高的期刊ACM Computing Surveys是一份专门刊载综述性论文的期刊。医学领域影响因子最高的期刊CA-A Cancer Journal for Clinicians以刊登评述(Review)为主,实际上也是一份综述性期刊。

一个科研人员,即便是高水平科研人员,发表过几篇被引次数为零的论文,并不意味着他的科研水平就一定很低。Egghe教授等人曾对物理、化学、生理学、医学和数学领域的75位诺贝尔奖和菲尔兹奖(Fields Medal)获得者所发表论文的引用情况做过调研,结果发现:这些获奖者发表的论文中至少有10%从未被引用过Leo Egghe,Raf Guns,Ronald Rousseau,Thoughts on Uncitedness:Nobel Laureates and Fields Medalists as Case Studies,Journal of the American Society for Information Science and Technology,62(8),2011:1637-1644.。但这些人都是非常优秀的科学家。

神行太保小密探

菲尔兹奖

菲尔兹奖被誉为“数学界的诺贝尔奖”,全称为The International Medals for Outstanding Discoveries in Mathematics,英文简称Fields Medal。该奖由加拿大数学家John Charles Fields筹划设立,于1936年首次颁奖;之后,每4年在国际数学家大会(International Congress of Mathematicians,ICM)上颁发一次,每次颁发给最多4位40岁以下的杰出数学家。

菲尔兹奖奖章

1982年,当时33岁的美籍华裔数学家丘成桐获菲尔兹奖。2006年,当时31岁的澳大利亚籍华裔数学家陶哲轩获菲尔兹奖。

4.5.2 常被忽略的影响因素

毋庸置疑,成果的创新性对论文评价、被引来说非常重要。但除此之外,有没有其他因素会影响审稿人、读者对论文的看法呢?回答是肯定的。假设一篇论文,成果原创,但逻辑混乱,阅读困难,这会不会影响对它的评价呢?回答也是肯定的。让我们先从论文的可读性谈起。为什么?因为,它是最容易被作者忽略的因素。

1.可读性

可读性(Readability)是影响读者对论文认可度的重要因素之一。Nature杂志对可读性的看法是这样的:“Nature is an international journal covering all the sciences.Contributions should therefore be written clearly and simply so that they are accessible to readers in other disciplines and to readers for whom English is not their first language.Essential but specialized terms should be explained concisely but not didactically.”http://www.nature.com/nature/authors/gta/index.html#a4.。也许有人会说:Nature是一本涵盖多个学科的综合性杂志,要求不同学科的人都能看懂它的论文,当然要强调文章的可读性;我写的论文是给我所属领域的专业人员看的,读者群不大并且有很强的专业背景,因此没有可读性的问题。科技论文的读者群是小而精,但是即便如此也应当让绝大多数专业人员看明白。强调可读性并不是要将科技论文改成科普文章,而是要由浅到深,深入浅出,使本专业或相关专业人员易懂,非本专业人员能懂,能够理解要解决的问题及方法。

其实,专业性很强的期刊都很注意论文的可读性。例如:IEEE Transactions on Knowledge and Data Engineering是一本专业性很强的数据库与知识工程方面的期刊,该刊在论文评审表中对可读性的等级作了如下所示的划分,其他IEEE Transactions系列期刊也有类似的要求。

表4-7 IEEE Transactions on Knowledge and Data Engineering对可读性的等级划分

由此可见,可读性对科技论文来说很重要。一篇好论文不仅应让小领域同行看懂,也应当让大领域同行看懂。语言文字是影响论文可读性的一个方面。论文可读性不仅仅是语句通顺,没有语法错误。知识完整、逻辑合理、表述清晰也是论文可读性的重要方面。从某种程度上说,结构是否合理、表述是否清楚是影响科技论文可读性的主要因素。尽管出版编辑(Copy Editor)在出版前会帮助作者完善文字、图表等,但编辑毕竟不是某个研究领域的专家,成果的表述逻辑、组织结构等还需要作者自己多下工夫。

2.完整性

这里所说的完整是指论文各必要部分不能缺失,比如验证、评价。我们在这里讨论这一问题,对不少人来说,似乎有些不可理解:作者怎么可能会忘记这些关键内容呢?然而,这确实是一些新手常犯的致命错误,甚至一些老手也有这方面的问题。有的作者收到退稿通知,会抱怨:我的论文的创新点这么突出,怎么会被退稿呢?!仔细一看退稿通知,给出的原因是缺少充分的验证与客观的评价。一个理论、技术思路再先进、创新,缺少充分的验证,也不能称之为科研成果。同时,对成果的评价应当是以数据、事实为依据的客观评价,而不是主观的评说。如果这些关键内容缺失,论文所述成果的正确性、真实性就会大打折扣。如果读者、审稿人在论文中没有找到验证或者在验证部分没有找到令人信服的数据,那么他们对论文的评价会大大降低。

3.逻辑结构

论文整体结构上的连贯性、逻辑性也是影响论文评价的一个重要因素。这里说的结构并不是论文的大块格式结构,如引言、相关工作等,而是内容上内在的逻辑结构。有的论文,从引言到结论,一样都不缺;从公式、定义到公理、定理,一样也不少;但读者读完之后,就是搞不清论文解决了什么问题,解决问题的方法是什么。原因是论文各部分相互独立,缺少内在联系。例如:引言部分介绍、分析了要研究的问题,可主要工作部分解决的却不是这个问题;评价部分分析、评价的指标与主要工作的关系也不大。又例如:相关工作部分堆砌了大量与作者工作关系不是很密切的已有成果。可是,论文却没有与这些相关工作的对比分析。那些相关工作被罗列在那里要起什么作用能?让人费解。论文逻辑结构差,各部分自说自话,虽行云流水,但更是一盘散沙,读者、评审人看完了,不知道作者到底想表达什么:既没有整体思路,也没有相互关联的技术细节,前后内容也不相关。对这种论文,大家的评价自然也就不会高。