reddit 2.5 million 新闻数据

发布：可思数据时间：2019-10-19

数据类型：文本语料热度

文件类型：.zip 文件大小：429.15 MB

授权方式：公共开源 发布时间：2019-10-19

数据来源： 数据语言：英文

数据介绍：

美国 reddit 新闻网站最受欢迎的 2500 名发布者每家媒体 1000 个发布内容及评论数据集，来自订阅者的前2,500个子评价，从2013年8月15日至20日期间从reddit提取。

这是来自reddit的热门帖子的数据集。它包含来自前2,500个子评价的前1,000个历史帖子，总共有250万个帖子。顶级子订单由订户数确定，位于清单文件中。

这些数据是在2013年8月15日至20日期间提取的。

每个文件都是一个CSV，其相关的subreddit作为其文件名。每个CSV文件都包含一个标题行。

这是一个简单的例子：这是Serendipity上最受投票的域名的细分。（是的，作为饼图。）

使用TF-IDF找到subreddit的重要术语。做语义分析等。

下载地址：

下载提取码：8br6

特别声明：

人工智能交流群扫码邀请

下载帮助：

发表评论