该数据集由CALO项目(一个学习和组织的认知助手)收集和准备。它包含来自大约150个用户的数据,这些数据大部分都存储在文件夹中,其中大多数是Enron。语料库总共包含约50万条消息。该数据最初是由联邦能源管理委员会在调查期间公开并发布到网络上的。
将此数据集作为资源分发给有兴趣改进当前电子邮件工具或了解当前电子邮件使用方式的研究人员。电子邮件的唯一集合。
数据集的研究用途
- 2004年CEAS会议上发表了一篇描述Enron数据的论文。
- 与该数据相关的一些实验在Ron Bekkerman的主页上进行了描述 。
- 可从Andres Corrada-Emmanuel获得对数据的社交网络分析,包括“电子邮件正文的MD5摘要与诸如作者,收件人等之类的有用映射”。
- 来自的一组 SIMS,加州大学伯克利分校提供搜索,可视化以及一些带有主题和情感标签的电子邮件
- EDRM提供了具有所有附件的数据集版本。
- 宾夕法尼亚大学的工作包括用于电子邮件搜索的查询数据集以及用于基于Enron语料库生成拼写错误的工具。
- Kimmie Farrington及其同事在2011年发表了一篇论文,该论文将Enron数据集用作测试语料库的一部分,用于将人与计算机生成的分类解释进行众包:参见Hutton,Amanda,Alexander Liu和Cheryl Martin。“分类器可解释性的众包评估。” 在2012年AAAI人群智慧春季研讨会上的论文集
- Parakweet发布了一套开源的Enron句子数据,标记为言语行为。
- 查理·奥克斯伯勒(Charlie Oxborough )发布了 一组句子级别的注释(需要用户采取行动或回应的内容)。