1.5.4 常用语料库
情感/观点/评论的语料库如下。
1.ChnSentiCorp_htl_all数据集
数据概览:七千多条酒店评论数据,五千多条正向评论,两千多条负向评论。
下载地址:
https://github.com/SophonPlus/ChineseNlpCorpus/blob/master/datasets/ChnSentiCorp_htl_all/intro.ipynb
2.waimai_10k数据集
数据概览:某外卖平台收集的用户评价,正向四千条,负向约八千条。
下载地址:
https://github.com/SophonPlus/ChineseNlpCorpus/blob/master/datasets/waimai_10k/intro.ipynb
3.online_shopping_10_cats数据集
数据概览:十个类别生活产品,共六万多条评论数据,正、负向评论各约三万条。
下载地址:
https://github.com/SophonPlus/ChineseNlpCorpus/blob/master/datasets/online_shopping_10_cats/intro.ipynb
4.weibo_senti_100k数据集
数据概览:十万多条,带情感标注新浪微博,正负向评论约各五万条。
下载地址:
https://github.com/SophonPlus/ChineseNlpCorpus/blob/master/datasets/weibo_senti_100k/intro.ipynb
5.simplifyweibo_4_moods数据集
数据概览:三十六万多条,带情感标注新浪微博,包含四种情感(喜悦约二十万条,愤怒、厌恶、低落各约五万条)。
下载地址:
https://github.com/SophonPlus/ChineseNlpCorpus/blob/master/datasets/simplifyweibo_4_moods/intro.ipynb
6.dmsc_v2数据集
数据概览:二十八部电影,超七十万用户,超二百万条评分/评论数据。
下载地址:
https://github.com/SophonPlus/ChineseNlpCorpus/blob/master/datasets/dmsc_v2/intro.ipynb
7.yf_dianping数据集
数据概览:二十四万家餐馆,五十四万用户,四百四十万条评论/评分数据。
下载地址:
https://github.com/SophonPlus/ChineseNlpCorpus/blob/master/datasets/yf_dianping/intro.ipynb
8.yf_amazon数据集
数据概览:五十二万件商品,一千一百多个类目,一百四十二万用户,七百二十万条评论/评分数据。
下载地址:
https://github.com/SophonPlus/ChineseNlpCorpus/blob/master/datasets/yf_amazon/intro.ipynb
中文命名实体识别的语料库如下。
dh_msra数据集
数据概览:五万多条中文命名实体识别标注数据(包括地点、机构、人物)。
下载地址:
https://github.com/SophonPlus/ChineseNlpCorpus/blob/master/datasets/dh_msra/intro.ipynb
推荐系统的语料库如下。
1.ez_douban数据集
数据概览:五万多部电影(三万多部有电影名称,两万多部没有电影名称),2.8万用户,280万条评分数据。
下载地址:
https://github.com/SophonPlus/ChineseNlpCorpus/blob/master/datasets/ez_douban/intro.ipynb
2.dmsc_v2数据集
数据概览:28部电影,超七十万用户,超二百万条评分/评论数据。
下载地址:
https://github.com/SophonPlus/ChineseNlpCorpus/blob/master/datasets/dmsc_v2/intro.ipynb
3.yf_dianping数据集
数据概览:24万家餐馆,54万用户,440万条评论/评分数据。
下载地址:
https://github.com/SophonPlus/ChineseNlpCorpus/blob/master/datasets/yf_dianping/intro.ipynb
4.yf_amazon数据集
数据概览:52万件商品,一千一百多个类目,142万用户,720万条评论/评分数据。
下载地址:
https://github.com/SophonPlus/ChineseNlpCorpus/blob/master/datasets/yf_amazon/intro.ipynb