原创投稿 行业报告 AI展会 数据标注
投稿发布
您的当前位置:首页 > 下载中心 > NLP > 正文

情感标注句子数据集

发布:可思数据 时间:2020-06-03
数据类型:文本语料 热度

文件类型:.zip              文件大小:409 KB

授权方式:公共开源     发布时间:2020-06-03

数据来源:Mark Kaghazgarian             数据语言:英文

数据介绍:

情感标记的句子数据集使用深度特征从组到单个标签,Kotzias等。

情感标注句子数据集观点挖掘(有时称为情感分析或情感AI)是指使用自然语言处理,文本分析,计算语言学和生物识别技术来系统地识别,提取,量化和研究情感状态和主观信息。

内容

此数据集是为Kotzias等人的论文“使用深度特征从组到单个标签”创建的。等等 2015年KDD

它包含标有正面或负面情绪的句子。

格式:

句子分数

细节:

分数是1(正面)或0(负面)。
这些句子来自三个不同的网站/领域:

imdb.com
amazon.com
yelp.com

每个网站都有500个肯定的句子和500个否定的句子。这些是随机选择的,用于较大的评论数据集。
我们试图选择具有明显正负含义的句子,目的是不选择中性句子。

亚马逊:包含在amazon.com上手机和配件类别中出售的产品的评论和评分,
并且是McAuley和Leskovec收集的数据集的一部分。分数在1到5的整数范围内。我们认为评分为4和5的评论为肯定,而得分为1和2的评论为否。我们将数据随机分为两半,分别为50%,用于训练和用于测试,每组中有35,000个文档。

IMDb:指最初由Maas等人引入的IMDb电影评论情感数据集。作为
情感分析的基准此数据集包含在imdb.com上发布的总共100,000条电影评论。有50,000
未标记的评论,其余的50,000条分为25,000条用于培训的评论和25,000条用于
测试的评论每个带有标签的评论都有一个正面或负面的二进制情感标签。在我们的实验中,我们
仅在训练集中的标记部分进行训练。

Yelp:指从Yelp数据集挑战中提取的餐厅评论数据集。分数
是从1到5的一个整数范围。我们再次认为评分4和5为正面,而1和2为
负面的评论。我们随机生成了50-50个培训和测试
组,每组大约生成了300,000个文档句子:对于上述每个数据集,我们从测试集中提取并手动标记了1000个句子,其中正面情绪为50%,负面情绪为50%。这些语句仅用于评估
每个数据集的实例级分类3。它们不用于模型训练,以保持与我们在
小组级别学习和在实例级别进行预测的总体目标一致

下载地址:

特别声明:

¤ 此数据集库仅供研究和教育用途,不得用于任何商业用途。
¤ 如果您在任何出版物或报告中使用该数据库,则必须添加引用本站来源。
¤ 版权归作者及所在组织所有。
¤ 如用于商业用途,请联系版权所有人。
¤ 本站数据来源于网络如有侵权请联系我们。
¤ 本站数据压缩包统一解压密码:www.sykv.com
人工智能权威社区
人工智能交流群扫码邀请

相关文章:

    无相关信息

相关推荐:

网友评论:

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

数据标注服务
sem搜索推广

Copyright©2005-2020 Sykv.com 可思数据 版权所有    京ICP备14056871号

关于我们   免责声明   广告合作   版权声明   联系我们   原创投稿   网站地图  

可思数据 数据标注行业联盟

人工智能资讯   人工智能资讯   人工智能资讯   人工智能资讯

扫码入群
咨询反馈
扫码关注

微信公众号

返回顶部
关闭