SMS垃圾邮件收集数据集
标记为垃圾邮件或合法的SMS消息的集合
SMS垃圾邮件收集是已收集用于SMS垃圾邮件研究的一组SMS标记邮件。它包含一组英文短信,共5574条,标记为火腿(合法)或垃圾邮件。
内容
这些文件每行包含一条消息。每行由两列组成:v1包含标签(火腿或垃圾邮件),v2包含原始文本。
该语料库是从Internet上免费或免费为研究来源收集的:
->从Grumbletext网站手动提取了425条SMS垃圾邮件。这是一个英国论坛,手机用户在其中公开发表有关SMS垃圾邮件的声明,其中大多数都没有报告收到的垃圾邮件。声明中垃圾邮件消息文本的标识是一项非常艰巨且耗时的任务,它涉及仔细扫描数百个网页。
-> NUS SMS语料库(NSC)的3375条SMS随机选择的火腿消息的子集,该消息是由新加坡国立大学计算机科学系收集的约10,000条合法消息的数据集。这些信息主要来自新加坡人,并且主要来自就读大学的学生。这些消息是从志愿者那里收集的,他们知道他们的贡献将被公开提供。
->最后,我们合并了SMS Spam Corpus v.0.1 Big。它具有1,002条SMS ham消息和322条垃圾邮件。该语料库已用于以下学术研究: