内容理解:技术、算法与实践
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.2.1 文本分类的研究背景

文本分类是自然语言处理领域的一项基础任务,具体来说,文本分类需要将预先定义的标签类别分配到给定的文本。按照预先定义的标签数量来划分,文本分类分为二分类和多分类,二分类的标签数量是2,多分类的标签数量大于2。按照每条文本可以分配的标签数量划分,文本分类分为单标签分类和多标签分类。单标签分类指每条文本只能分配一个标签,而多标签分类的文本可以被分配多个不同的标签。如果无特殊说明,文本分类任务通常默认采用单标签分类。

除了以上两种划分方式外,文本分类任务还有一些细分的子任务。如果标签具有层次体系,此时就是一个分层文本分类任务。例如文本是试卷上的试题,标签是知识点,知识点具有层次信息,通常利用好标签的层次信息可以更好地提升分类效果。在情感分类任务中,如果关注文本中更细粒度的不同方面的情感类别,此时分类任务就是基于方面(Aspect-based)的情感分析任务,例如“这本书包装很精美,但是价格有点贵。”这句话对于“包装”这个方面的情感是正向的,而对于“价格”这个方面的情感是负向的。

文本分类任务不仅在学术界有着重要的研究价值,在工业界也有着广泛的应用。自动判断邮件是否为垃圾邮件、判断电商网站上的商品评论的情感倾向、判断某段新闻属于哪个类别(体育、财经、娱乐等)、判断某段《王者荣耀》游戏资讯中涉及哪些英雄标签、判断某条广告对应了哪种产品品类等,这些都是文本分类的实际应用。研究文本分类,并探索高性能的文本分类算法,有着重要的实际意义和应用价值。