自动专利分类中关键问题的研究
李俊 罗坤
摘要:自动专利分类任务是根据专利摘要的内容,自动地将专利分为预先定义的一个类或几个类的过程,主要分为文本预处理、维数约减、分类器的学习等步骤。本文首先列举了专利分类任务的特点,然后根据专利文本信息的特点,探究了若干影响专利分类效果的关键问题。
关键词:自动专利分类 专利分类任务特点 若干关键问题
引言
自动专利分类的研究目标是实现专利分类的自动化,以达到降低分类成本、提高分类效率和改善分类性能等目的。根据专利摘要提供的文本信息的特点,自动专利分类任务可分为文本预处理、维数约减、分类器的学习等步骤。以上的每一个步骤都可以采用多个方法,而要想取得令人满意的分类效果,我们需要结合专利分类任务的特点选出符合该特点的方法。
本文首先列举出自动专利分类任务的特点,然后根据这些特点,探讨了若干影响专利分类效果的关键问题。
一、专利分类任务的特点
专利分类是一类文本分类任务,因为专利分类的实质是根据专利摘要提供的文本信息对专利进行分类。而文本分类实际上是一个模式分类任务,所以很多模式分类的算法可以应用在文本分类中,但是,文本分类和文档的语义紧密相关,所以它与普通的模式分类任务相比有许多独特之处。以下列举了专利分类任务的特点[1]。
(1)高维特征空间。
在进行文本特征提取的时候,有大量的候选特征。如果使用词语作为文本的特征,一个1000篇左右的训练专利摘要一般也会产生上万个候选特征,尤其像中文、日文等,经常会产生几十万维的特征。如果使用这些特征来构造专利摘要向量,那么向量空间的维数会很高。
(2)特征语义相关。
一种避免高维灾难的解决方法是,假设特征之间是相互独立的,即一个特征出现与否与其他的特征并没有关系,但是,一般的,文本分类中很多特征包含一些相互依赖的关系。
(3)特征存在多义和同义的现象。
文本分类中一般使用词、短语等作为表征文档语义的文档特征。但是,这些特征往往无法清晰地表达一种含义,一个特征可能有多种含义,即多义现象,如“教授”这个特征既可以表示一种职称的含义,也可以表示一种传授知识的含义。同时,许多相同的含义可以用不同的特征来描述,即同义现象,例如:“计算机”和“电脑”这两个特征都表示相同的含义。
(4)特征分布稀疏。
用特征词来表示专利摘要的时候,往往特征维数非常高,而摘要出现的特征词只占总特征词的小部分,特别是对于一篇比较短的摘要来说,特征空间中,仅仅出现少量的特征词,因此,多数特征词的出现频率都为零,这导致摘要生成的向量中大多数特征词的值都为零,特征的分布非常的稀疏。
(5)基本线性可分。
文本分类中,大部分类别之间基本上是线性可分的,所以一些复杂的、在其他模式分类任务中应用很成功的方法,在文本分类中未必会取得很好的效果。
(6)类别的多样性和复杂性。
专利类别种类多样,类别之间相互有点稀,这种类别之间的关系复杂和相互干扰,对分类器的计算复杂度和分类性能会产生一定的影响。在平坦的文本分类中,通常假设类别之间是相互独立的,但是根据专利类别号信息,我们可以明显地看出专利分类也可以更深层的考虑为层次文本分类,为此,我们可以用构造专利的类别层次结果来刻画类别之间的关系。
(7)各类别中样本容量差异大。
本次专利分类任务的样本取自G06F1~G06F21,一共274个类别,81534个实例。某些类别下对应的实例可以有2000条,但是某些类别下实例不超过10条,对于个别类别,也出现了一条实例都没有的情况,对于这些样本容量小的类别,从统计上讲很难得到好的分类效果,而且还会作为噪声去干扰别的类别的分类准确率。
(8)专利摘要语义相似度较大。
专利摘要的写作需要一个统一的格式,用词上控制的也非常严格,这导致每条专利摘要即便不属于同一个类别,它们的语义相似度也较大,高频词很多。而且每个专利摘要的篇幅都比较短,这就更加为区分每个类别造成了困难。正是由于这个特点的存在,使得某些常用的文本分类方法在专利分类中没有取得很好的效果。这个问题也会在下文作详细的讨论。
二、若干关键问题研究
根据以上专利分类的特点,我们在实现自动专利分类的过程中,为了提高最终总体分类的准确率,需要注意以下几点。
1.分类策略的选取
本次专利分类任务的样本取自G06F1~G06F21,一共274个类别。其中部分样本个体同时属于G06F1~G06F21中的多个类别,对于这种情况,我们有两个方案可以选择。第一,把该任务作为多类别分类处理,即每一个类都建立一个分类器,判断属于或不属于该类。对于274个类别则需建立274个分类器。第二,考虑到只有少数的样本个体满足多类别的条件,我们考虑将多类别划分为一个新的类别,以此保证每个样本个体只能属于一个类别。
对于第一个方案,我们可以明显看到,它有两个劣势:第一,速度非常慢,我们需要训练274个类别,并且在做实际分类时对每一个实例我们也要判断274次;第二,该方法导致正例负例严重不均衡,标签为“不属于”的实例要比标签为“属于”的多很多。为了克服第二点劣势,我们在采用朴素贝叶斯方法时对模型做了修改:
原:P(W|C)=类C下W出现的次数+平滑项/类C总单词数
P(W|Not In C)=其他所有类中W出现的次数+平滑项/其他所有类总单词数
改:P(W|C)=类C下W出现的次数+平滑项/类C中出现最多的单词的出现次数
P(W|Not In C)=其他所有类中W出现的次数+平滑项/其他所有类中出现最多的单词的出现次数
对于大多数类而言,这样做查全率和查准率都在40%以上,但是对于整个数据集的准确率却只有不到3%。(因为每个实例要经过274个分类器分类,只要有一个分类器分错结果就是错的。)
所以,根据最后的结果,我们知道方法一是不可行的。我们必须采用方案二来实现专类分类,以此保证每个样本个体只能属于一个类别,这样做的目的是,变成单类别任务后可以大幅度地提高分类的准确率。对于方案二,如果采用支持向量机作为学习器,最后总体的准确率可以达到44.96%。
2.停用词稀有词是否需要排除
实验说明不去除停用词和稀有词,准确率会略有提升。这是因为专利的书写格式有统一的标准,即便是不同类别之间,用词都很相近,对于这些词而言,不同类别下出现的概率相应也是很相近的。从总体上看,这导致不同类别中很多特征的概率分布很相似,而停用词和稀有词虽然会造成特征高维性和稀疏性等问题,但是它们有效地提供了差异信息,对区分类别做出了贡献。而且也正是因为重复的词语很多,给停用词的去除造成了很大的困难,反而不去除的效果会更好。
3.采用哪种维数约减方法效果最好
文本分类中的维数约减可以消除文本数据的冗余特征,消除可能存在的数据噪声,提高分类器训练的效率和分类性能,节省存储空间,因而维数约减是进行文本分类的必要前提。
维数约减的任务是在不损失文本分类性能的前提下,从一组数量为D的特征中选择出数量为d(D>d)的一组最优特征。特征选择和特征抽取是维数约减的常用两种方法。特征选择是根据某种评分准则从原始特征中选择部分最优特征;特征抽取是依据某种原则构造从原始特征空间到低维空间的一个变换,从而将原始特征空间所包含的分类信息转移到新的低维空间中去。
我们分别利用信息增益和主成分分析进行测试,实验说明:利用特征选择比利用特征抽取进行维数约减的效果要好。这是因为专利摘要的语义相似度很大,即便我们利用话题模型抽取特征也不能得到一个有效的新结构,反而会让数据信息丢失,从而造成分类准确率的下降。
三、总结建议
自动专利分类任务可分为文本预处理、维数约减、分类器的学习等步骤。以上的每一个步骤都可以采用多个方法,而这些方法的选择需要结合专利分类任务的特点。通过对自动专利分类中的若干关键问题进行探究,我们已经找到了一套很好的自动专利分类方法,使得最终的准确率能够达到44.96%。
但是,在这个基础上,我们还可以提出很多改进的策略:可以改进样本的质量,在提高数据量的同时保证每个类别下样本个数是相近的;还有,可以在一些小的地方作改动以此提升效果,例如使用不同的分词器,采用某些策略修正分类器,根据各个分类器的实验结果,不同的类别选择最擅长的分类器,等等。
参考文献
[1]谭松波.高性能文本分类算法研究[D].北京:中国科学院计算机研究所,2006.