这是什么?
这是来自reddit的热门帖子的数据集。它包含来自前2,500个子评价的前1,000个历史帖子,总共有250万个帖子。顶级子订单由订户数确定,位于清单文件中。
这些数据是在2013年8月15日至20日期间提取的。
每个文件都是一个CSV,其相关的subreddit作为其文件名。每个CSV文件都包含一个标题行。
这有什么用?
这是一个简单的例子:这是Serendipity上最受投票的域名的细分。(是的,作为饼图。)
使用TF-IDF找到subreddit的重要术语。做语义分析等。