1.3.1 监督学习_Python自然语言处理（微课版）-QQ阅读男生都市网

上QQ阅读APP看书，第一时间看更新

监督学习（Supervised Learning）是通过训练数据集得出建模，再用模型对新的数据样本进行分类或者回归分析的机器学习方法。这种学习方法类似学生通过研究问题和参考答案来学习，在掌握问题和答案之间的对应关系后，学生可以解决相似的新问题。

监督学习是指“喂”给算法的数据提前带有正确答案。正确答案在机器学习领域被称为标签（Label），需要进行标注。监督学习的“输出”不同，当算法输出的是连续值时，就是回归问题（Regression）；若输出是离散值时，则是分类问题（Classification）。

分类是在有限的离散的类别中给每个样本贴上正确的标签。例如，比赛结果的赢或输，如表1-2所示。

表1-2 分类学习示例

又如，电子邮箱里的垃圾邮件分类器，通过对每封邮件进行“垃圾”或“非垃圾”的标签区分，从而自动过滤垃圾邮件。邮箱通过学习垃圾邮件有哪些特点，构建判别模式，自动区分新邮件是“垃圾”或“非垃圾”。

回归任务预测目标数值是连续值。例如，效率的值为65.1、70.3等，如表1-3所示。

表1-3 回归预测示例