情感标记的句子数据集使用深度特征从组到单个标签,Kotzias等。
情感标注句子数据集观点挖掘(有时称为情感分析或情感AI)是指使用自然语言处理,文本分析,计算语言学和生物识别技术来系统地识别,提取,量化和研究情感状态和主观信息。
内容
此数据集是为Kotzias等人的论文“使用深度特征从组到单个标签”创建的。等等 2015年KDD
它包含标有正面或负面情绪的句子。
格式:
句子分数
细节:
分数是1(正面)或0(负面)。
这些句子来自三个不同的网站/领域:
imdb.com
amazon.com
yelp.com
每个网站都有500个肯定的句子和500个否定的句子。这些是随机选择的,用于较大的评论数据集。
我们试图选择具有明显正负含义的句子,目的是不选择中性句子。
亚马逊:包含在amazon.com上手机和配件类别中出售的产品的评论和评分,
并且是McAuley和Leskovec收集的数据集的一部分。分数在1到5的整数范围内。我们认为评分为4和5的评论为肯定,而得分为1和2的评论为否。我们将数据随机分为两半,分别为50%,用于训练和用于测试,每组中有35,000个文档。
IMDb:指最初由Maas等人引入的IMDb电影评论情感数据集。作为
情感分析的基准。此数据集包含在imdb.com上发布的总共100,000条电影评论。有50,000
条未标记的评论,其余的50,000条分为25,000条用于培训的评论和25,000条用于
测试的评论。每个带有标签的评论都有一个正面或负面的二进制情感标签。在我们的实验中,我们
仅在训练集中的标记部分进行训练。
Yelp:指从Yelp数据集挑战中提取的餐厅评论数据集。分数
是从1到5的一个整数范围。我们再次认为评分4和5为正面,而1和2为
负面的评论。我们随机生成了50-50个培训和测试
组,每组大约生成了300,000个文档。句子:对于上述每个数据集,我们从测试集中提取并手动标记了1000个句子,其中正面情绪为50%,负面情绪为50%。这些语句仅用于评估
每个数据集的实例级分类3。它们不用于模型训练,以保持与我们在
小组级别学习和在实例级别进行预测的总体目标一致。