Multi-Domain Sentiment Dataset--多域情感数据集-免费大数据平台！-可思数据

Multi-Domain Sentiment Dataset--多域情感数据集

发布：可思数据时间：2019-10-19

数据类型：文本语料热度

数据采集定制

数据标注定制

文件类型：.zip 文件大小：1.5 GB

授权方式：公共开源 发布时间：2019-10-19

数据来源：Mark Dredze 数据语言：英文

数据介绍：

多域情感数据集包含从Amazon.com获取的许多产品类型（域）的产品评论。一些域名（书籍和DVD）有成千上万的评论。其他（乐器）只有几百个。评论包含星级（1至5星），如果需要可以转换为二进制标签。此页面包含有关数据的一些说明。如果您有任何疑问，请发送电子邮件至Mark Dredze或John Blitzer。

关于数据集的一些注释。

1）unprocessed.tar.gz包含原始数据。
2）processed.acl.tar.gz包含预处理和平衡的数据。也就是说，Blitzer等人的格式。（ACL 2007）
3）processed.realvalued.tar.gz包含预处理和平衡的数据，但具有星数，而不仅仅是正数或负数。也就是说，Mansour等人的格式。（NIPS 2009）

预处理数据是每个文档一行，每行格式为：

feature：<count> .... feature：<count> #label＃：<label>

标签始终位于每个文件的末尾线。

4）每个目录对应一个域。每个目录包含几个文件，我们简要描述：
all.review - 该域名的所有评论，原始格式为
positive.review - 正面评论
negative.review - 否定评论
unlabeled.review - 未标记的评论
processed.review - 预处理评论（见下文）
processed.review.balanced - 预处理的评论，在正面和负面之间平衡。

5）虽然正面和负面文件包含正面和负面评论，但这些不一定是任何引用文献中使用的分割。它们只是初始分裂。

6）每个（未处理的）文件包含用于编码评论的伪XML方案。大多数领域都是自我解释的。评论有一个独特的ID字段，不是很独特。如果它有两个唯一的id字段，请忽略仅包含数字的字段。

此情绪数据集已用于多篇论文：

John Blitzer，Mark Dredze，Fernando Pereira。传记，宝莱坞，繁荣盒和搅拌器：用于情感分类的领域适应。计算语言学协会（ACL），2007年。

John Blitzer，Koby Crammer，Alex Kulesza，Fernando Pereira和Jenn Wortman。学习领域适应领域。神经信息处理系统（NIPS），2008。

Mark Dredze，Koby Crammer和Fernando Pereira。置信加权线性分类。国际机器学习会议（ICML），2008年。

Yishay Mansour，Mehryar Mohri和Afshin Rostamizadeh。具有多个源的域适应。神经信息处理系统（NIPS），2009年。

如果您将此数据用于您的研究或出版物，请引用第一篇（ACL 2007）论文作为数据的参考。另外，请给我一行，以便我知道您发现数据有用。

下载地址：

下载提取码：exaa

特别声明：

人工智能交流群扫码邀请

Multi-Domain Sentiment Dataset--多域情感数据集

客服QQ