Python自然语言处理(微课版)
上QQ阅读APP看书,第一时间看更新

1.3.1 监督学习

监督学习(Supervised Learning)是通过训练数据集得出建模,再用模型对新的数据样本进行分类或者回归分析的机器学习方法。这种学习方法类似学生通过研究问题和参考答案来学习,在掌握问题和答案之间的对应关系后,学生可以解决相似的新问题。

监督学习是指“喂”给算法的数据提前带有正确答案。正确答案在机器学习领域被称为标签(Label),需要进行标注。监督学习的“输出”不同,当算法输出的是连续值时,就是回归问题(Regression);若输出是离散值时,则是分类问题(Classification)。

1.分类

分类是在有限的离散的类别中给每个样本贴上正确的标签。例如,比赛结果的赢或输,如表1-2所示。

表1-2 分类学习示例

又如,电子邮箱里的垃圾邮件分类器,通过对每封邮件进行“垃圾”或“非垃圾”的标签区分,从而自动过滤垃圾邮件。邮箱通过学习垃圾邮件有哪些特点,构建判别模式,自动区分新邮件是“垃圾”或“非垃圾”。

2.回归

回归任务预测目标数值是连续值。例如,效率的值为65.1、70.3等,如表1-3所示。

表1-3 回归预测示例