20news 新闻数据-免费大数据平台！-可思数据

20个新闻组数据集

20个新闻组数据集是大约20,000个新闻组文档的集合，在20个不同的新闻组中均匀分布（几乎）。据我所知，它最初是由Ken Lang收集的，可能是他的Newsweeder：学习过滤netnews论文，尽管他没有明确提到这个集合。20个新闻组集合已经成为机器学习技术的文本应用实验的流行数据集，例如文本分类和文本聚类。

组织

数据被组织成20个不同的新闻组，每个新闻组对应于不同的主题。一些新闻组彼此密切相关（例如comp.sys.ibm.pc.hardware / comp.sys.mac.hardware），而其他新闻组则非常不相关（例如 misc.forsale / soc.religion.christian）。以下是20个新闻组的列表，根据主题划分（或多或少）：

comp.graphics comp.os.ms-windows.misc comp.sys.ibm.pc.hardware comp.sys.mac.hardware comp.windows.x	rec.autos rec.motorcycles rec.sport.baseball rec.sport.hockey	sci.crypt sci.electronics sci.med sci.space
misc.forsale	talk.politics.misc talk.politics.guns talk.politics.mideast	talk.religion.misc alt.atheism soc.religion.christian

数据

这里提供的数据是.tar.gz包。你需要tar和gunzip来打开它们。捆绑中的每个子目录代表一个新闻组; 子目录中的每个文件都是发布到该新闻组的某个新闻组文档的文本。

以下是数据集的三个版本。第一个（“19997”）是原始的，未经修改的版本。第二个（“bydate”）按日期排序为训练（60％）和测试（40％）集，不包括交叉发布（重复），不包括新闻组识别标题（外部参照，新闻组，路径，后续行动） -至今）。第三个（“18828”）不包括交叉发布，仅包含“发件人”和“主题”标题。

20news-19997.tar.gz - 原始20个新闻组数据集
20news-bydate.tar.gz - 按日期排序的20个新闻组; 删除重复和一些标题（18846文档）
20news-18828.tar.gz - 20新闻组; 删除重复项，仅“From”和“Subject”标题（18828文档）

我推荐“bydate”版本，因为交叉实验比较更容易（在训练/测试集选择中没有随机性），新闻组识别信息已被删除，并且它更加真实，因为列车和测试集在时间上是分开的。

[7/3/07]我最初将bydate版本列为包含18941个文档。我发现正确的计数是18846，其中彩虹跳过22.所以matlab版本（下面）代表18824个文档。但是，我的rainbow2matlab.py脚本会删除空白和单字文档，其中有50个后彩虹处理，所以你在matlab / octave版本中只能找到18774个条目。