1.2.1 文本分类的研究背景_内容理解：技术、算法与实践-QQ阅读男生轻小说网

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

1.2.1 文本分类的研究背景

文本分类是自然语言处理领域的一项基础任务，具体来说，文本分类需要将预先定义的标签类别分配到给定的文本。按照预先定义的标签数量来划分，文本分类分为二分类和多分类，二分类的标签数量是2，多分类的标签数量大于2。按照每条文本可以分配的标签数量划分，文本分类分为单标签分类和多标签分类。单标签分类指每条文本只能分配一个标签，而多标签分类的文本可以被分配多个不同的标签。如果无特殊说明，文本分类任务通常默认采用单标签分类。

除了以上两种划分方式外，文本分类任务还有一些细分的子任务。如果标签具有层次体系，此时就是一个分层文本分类任务。例如文本是试卷上的试题，标签是知识点，知识点具有层次信息，通常利用好标签的层次信息可以更好地提升分类效果。在情感分类任务中，如果关注文本中更细粒度的不同方面的情感类别，此时分类任务就是基于方面（Aspect-based）的情感分析任务，例如“这本书包装很精美，但是价格有点贵。”这句话对于“包装”这个方面的情感是正向的，而对于“价格”这个方面的情感是负向的。

文本分类任务不仅在学术界有着重要的研究价值，在工业界也有着广泛的应用。自动判断邮件是否为垃圾邮件、判断电商网站上的商品评论的情感倾向、判断某段新闻属于哪个类别（体育、财经、娱乐等）、判断某段《王者荣耀》游戏资讯中涉及哪些英雄标签、判断某条广告对应了哪种产品品类等，这些都是文本分类的实际应用。研究文本分类，并探索高性能的文本分类算法，有着重要的实际意义和应用价值。