Python自然语言处理(微课版)
上QQ阅读APP看书,第一时间看更新

1.5.5 搜狗新闻语料库

搜狗新闻语料库,下载地址为http://www.sogou.com/labs/resource/cs.php,如图1-14所示。

搜狐新闻数据(SogouCS)请直接下载精简版,文件为SogouCS.reduced.tar.gz,解压到d:\SogouCS.reduced,共有128个文本文件,如图1-15所示。

每一个txt文件采用ANSI编码,内容是XML格式化,如图1-16所示。

将每个txt文件根据url、contenttitle、content进行拆分,具体含义如下。

· url:获取内容类别。

· contenttitle:获取内容标题,作为txt的文档名。

· content:正文内容。

图1-14 搜狗新闻语料库网页

图1-15 下载搜狗新闻语料库

图1-16 文件内容

代码如下。

最终数据集整理为15个类别,如图1-17所示。

图1-17 语料集分类