原创投稿 行业报告 AI展会 数据标注
投稿发布
您的当前位置:首页 > 下载中心 > NLP > 正文

SMS垃圾邮件收集数据集

发布:可思数据 时间:2020-09-13
数据类型:文本语料 热度

文件类型:.zip              文件大小:492 KB

授权方式:公共开源     发布时间:2020-09-13

数据来源:NET             数据语言:英文

数据介绍:

SMS垃圾邮件收集数据集

标记为垃圾邮件或合法的SMS消息的集合

SMS垃圾邮件收集是已收集用于SMS垃圾邮件研究的一组SMS标记邮件。它包含一组英文短信,共5574条,标记为火腿(合法)或垃圾邮件。

内容

这些文件每行包含一条消息。每行由两列组成:v1包含标签(火腿或垃圾邮件),v2包含原始文本。

该语料库是从Internet上免费或免费为研究来源收集的:

->从Grumbletext网站手动提取了425条SMS垃圾邮件。这是一个英国论坛,手机用户在其中公开发表有关SMS垃圾邮件的声明,其中大多数都没有报告收到的垃圾邮件。声明中垃圾邮件消息文本的标识是一项非常艰巨且耗时的任务,它涉及仔细扫描数百个网页。
-> NUS SMS语料库(NSC)的3375条SMS随机选择的火腿消息的子集,该消息是由新加坡国立大学计算机科学系收集的约10,000条合法消息的数据集。这些信息主要来自新加坡人,并且主要来自就读大学的学生。这些消息是从志愿者那里收集的,他们知道他们的贡献将被公开提供
->最后,我们合并了SMS Spam Corpus v.0.1 Big。它具有1,002条SMS ham消息和322条垃圾邮件该语料库已用于以下学术研究:

下载地址:

特别声明:

¤ 此数据集库仅供研究和教育用途,不得用于任何商业用途。
¤ 如果您在任何出版物或报告中使用该数据库,则必须添加引用本站来源。
¤ 版权归作者及所在组织所有。
¤ 如用于商业用途,请联系版权所有人。
¤ 本站数据来源于网络如有侵权请联系我们。
¤ 本站数据压缩包统一解压密码:www.sykv.com
人工智能权威社区
人工智能交流群扫码邀请

相关文章:

    无相关信息

相关推荐:

网友评论:

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

数据标注服务

Copyright©2005-2020 Sykv.com 可思数据 版权所有    京ICP备14056871号

关于我们   免责声明   广告合作   版权声明   联系我们   原创投稿   网站地图  

可思数据 数据标注行业联盟

人工智能资讯   人工智能资讯   人工智能资讯   人工智能资讯

扫码入群
咨询反馈
扫码关注

微信公众号

返回顶部
关闭