Python自然语言处理(微课版)
上QQ阅读APP看书,第一时间看更新

1.5.4 常用语料库

情感/观点/评论的语料库如下。

1.ChnSentiCorp_htl_all数据集

数据概览:七千多条酒店评论数据,五千多条正向评论,两千多条负向评论。

下载地址:

https://github.com/SophonPlus/ChineseNlpCorpus/blob/master/datasets/ChnSentiCorp_htl_all/intro.ipynb

2.waimai_10k数据集

数据概览:某外卖平台收集的用户评价,正向四千条,负向约八千条。

下载地址:

https://github.com/SophonPlus/ChineseNlpCorpus/blob/master/datasets/waimai_10k/intro.ipynb

3.online_shopping_10_cats数据集

数据概览:十个类别生活产品,共六万多条评论数据,正、负向评论各约三万条。

下载地址:

https://github.com/SophonPlus/ChineseNlpCorpus/blob/master/datasets/online_shopping_10_cats/intro.ipynb

4.weibo_senti_100k数据集

数据概览:十万多条,带情感标注新浪微博,正负向评论约各五万条。

下载地址:

https://github.com/SophonPlus/ChineseNlpCorpus/blob/master/datasets/weibo_senti_100k/intro.ipynb

5.simplifyweibo_4_moods数据集

数据概览:三十六万多条,带情感标注新浪微博,包含四种情感(喜悦约二十万条,愤怒、厌恶、低落各约五万条)。

下载地址:

https://github.com/SophonPlus/ChineseNlpCorpus/blob/master/datasets/simplifyweibo_4_moods/intro.ipynb

6.dmsc_v2数据集

数据概览:二十八部电影,超七十万用户,超二百万条评分/评论数据。

下载地址:

https://github.com/SophonPlus/ChineseNlpCorpus/blob/master/datasets/dmsc_v2/intro.ipynb

7.yf_dianping数据集

数据概览:二十四万家餐馆,五十四万用户,四百四十万条评论/评分数据。

下载地址:

https://github.com/SophonPlus/ChineseNlpCorpus/blob/master/datasets/yf_dianping/intro.ipynb

8.yf_amazon数据集

数据概览:五十二万件商品,一千一百多个类目,一百四十二万用户,七百二十万条评论/评分数据。

下载地址:

https://github.com/SophonPlus/ChineseNlpCorpus/blob/master/datasets/yf_amazon/intro.ipynb

中文命名实体识别的语料库如下。

dh_msra数据集

数据概览:五万多条中文命名实体识别标注数据(包括地点、机构、人物)。

下载地址:

https://github.com/SophonPlus/ChineseNlpCorpus/blob/master/datasets/dh_msra/intro.ipynb

推荐系统的语料库如下。

1.ez_douban数据集

数据概览:五万多部电影(三万多部有电影名称,两万多部没有电影名称),2.8万用户,280万条评分数据。

下载地址:

https://github.com/SophonPlus/ChineseNlpCorpus/blob/master/datasets/ez_douban/intro.ipynb

2.dmsc_v2数据集

数据概览:28部电影,超七十万用户,超二百万条评分/评论数据。

下载地址:

https://github.com/SophonPlus/ChineseNlpCorpus/blob/master/datasets/dmsc_v2/intro.ipynb

3.yf_dianping数据集

数据概览:24万家餐馆,54万用户,440万条评论/评分数据。

下载地址:

https://github.com/SophonPlus/ChineseNlpCorpus/blob/master/datasets/yf_dianping/intro.ipynb

4.yf_amazon数据集

数据概览:52万件商品,一千一百多个类目,142万用户,720万条评论/评分数据。

下载地址:

https://github.com/SophonPlus/ChineseNlpCorpus/blob/master/datasets/yf_amazon/intro.ipynb