20个新闻组数据集
20个新闻组数据集是大约20,000个新闻组文档的集合,在20个不同的新闻组中均匀分布(几乎)。据我所知,它最初是由Ken Lang收集的,可能是他的Newsweeder:学习过滤netnews论文,尽管他没有明确提到这个集合。20个新闻组集合已经成为机器学习技术的文本应用实验的流行数据集,例如文本分类和文本聚类。
组织
数据被组织成20个不同的新闻组,每个新闻组对应于不同的主题。一些新闻组彼此密切相关(例如comp.sys.ibm.pc.hardware / comp.sys.mac.hardware),而其他新闻组则非常不相关(例如 misc.forsale / soc.religion.christian)。以下是20个新闻组的列表,根据主题划分(或多或少):
comp.graphics comp.os.ms-windows.misc comp.sys.ibm.pc.hardware comp.sys.mac.hardware comp.windows.x |
rec.autos rec.motorcycles rec.sport.baseball rec.sport.hockey |
sci.crypt sci.electronics sci.med sci.space |
misc.forsale | talk.politics.misc talk.politics.guns talk.politics.mideast |
talk.religion.misc alt.atheism soc.religion.christian |
数据
这里提供的数据是.tar.gz包。你需要tar和gunzip来打开它们。捆绑中的每个子目录代表一个新闻组; 子目录中的每个文件都是发布到该新闻组的某个新闻组文档的文本。
以下是数据集的三个版本。第一个(“19997”)是原始的,未经修改的版本。第二个(“bydate”)按日期排序为训练(60%)和测试(40%)集,不包括交叉发布(重复),不包括新闻组识别标题(外部参照,新闻组,路径,后续行动) -至今)。第三个(“18828”)不包括交叉发布,仅包含“发件人”和“主题”标题。
- 20news-19997.tar.gz - 原始20个新闻组数据集
- 20news-bydate.tar.gz - 按日期排序的20个新闻组; 删除重复和一些标题(18846文档)
- 20news-18828.tar.gz - 20新闻组; 删除重复项,仅“From”和“Subject”标题(18828文档)
[7/3/07]我最初将bydate版本列为包含18941个文档。我发现正确的计数是18846,其中彩虹跳过22.所以matlab版本(下面)代表18824个文档。但是,我的rainbow2matlab.py脚本会删除空白和单字文档,其中有50个后彩虹处理,所以你在matlab / octave版本中只能找到18774个条目。
MATLAB /八度
下面是20news-bydate数据集的处理版本,它易于作为稀疏矩阵读入Matlab / Octave:- 20news-bydate-matlab.tgz
- train.data
- train.label
- train.map
- 测试数据
- test.label
- test.map
- lexData.sh
- rainbow2matlab.py
- vocabulary.txt
有关此数据集的其他信息来源包括
- Tom Mitchell 对他的机器学习教科书的网络补充。
- 该CMU文本学习小组
- 该UCI KDD 20个新闻组条目。