文本语料
-
爱尔兰时报新闻数据集
<p><font><font>该新闻数据集由</font></font><strong><font><font>爱尔兰</font></font></strong><font><f...
2020-07-06 -
亚马逊产品评论数据
<h1><font><font>亚马逊产品评论数据消费者对亚马逊产品的评论</font></font></h1> <h2><font><font>超过34...
2020-06-03 -
新闻类别数据集
<h1><font><font>新闻类别数据集</font></font><font><font>根据标题和简短说明识别新闻类型</font></font>...
2020-05-31 -
COVID-19新闻文章开放研究数据集
<h1><font><font>COVID-19新闻文章开放研究数据集</font></font></h1> <p><font><font>为了应对COVID-19大...
2020-05-31 -
冠状病毒新闻语料库
<h1><font><font>冠状病毒新闻语料库</font></font></h1> <h2><font><font>提交给/ r / Coronavirus subred...
2020-05-31 -
假新闻和真实新闻数据集
<font>美国假新闻和真实新闻数据集,<font>该数据集包含被视为“假”新闻的文章列表。</font></fon...
2020-04-28 -
250万Reddit帖子数据
这是来自订阅者的前2500个子目录中的前1000个帖子的历史数据集,该数据是在2013年8月15日至20日之间从reddit...
2020-04-07 -
人民日报词性标注语料数据(199801)
人民日报语料,分词和词性标注POS的语料(Chinese corpus for Word segmentation and par of speech)资源为199...
2020-04-02 -
分词库语料数据
<strong>分词库(语料)</strong>,最常见的比如搜狗分词库,结巴词库;<br />这里比较推荐分词_频数_词性@35万_结...
2020-04-02 -
搜狗分类新闻语料库(20061127)
搜狗分类新闻.20061127,用于自然语言训练处理的新闻语料,抓取网上的一些新闻资料(The news materials used i...
2020-04-01 -
20 Newsgroups数据集
<p>20newsgroups数据集是用于文本分类、文本挖据和信息检索研究的国际标准数据集之一。<a name="OLE_LINK2...
2020-03-29 -
标语数据集
标语数据集用于分析各种组织口号的数据集 <h3><font><font>语境</font></font></h3> <p><font><font>&ldquo...
2020-03-25 -
WMT 2011 News Crawl 机器翻译数据
WMT 2011 News Crawl data 是一个自然语言翻译数据,从 Europarl corpus 语料中提取得到,包括:French-English、...
2020-03-09 -
Multi-Domain Sentiment Dataset--多域情感数据集
多域情感数据集包含从Amazon.com获取的许多产品类型(域)的产品评论。一些域名(书籍和DVD)有成千上万的评论。其...
2019-10-19 -
reddit 2.5 million 新闻数据
美国 reddit 新闻网站最受欢迎的 2500 名发布者每家媒体 1000 个发布内容及评论数据集,来自订阅者的前2,500...
2019-10-19 -
Twitter-dataset数据集
<p>ICWSM 2010论文中的数据可从以下链接获得。我们的数据集已匿名化,以保护用户自己的隐私。我们只发布有关T...
2019-10-19 -
JRC Names 实体专有名词库
<strong>什么是JRC名称?</strong><br />JRC-Names是一个高度多语言的命名实体资源,用于个人和组织名称(称为&ld...
2019-10-19 -
WikiText 英语词库数据
WikiText 英语词库数据(The WikiText Long Term Dependency Language Modeling Dataset)WikiText长期依赖语言...
2019-10-19 -
芝加哥汽车超速数据
2014 - 2016年芝加哥的摄像机违规行为,<font>芝加哥街头摄像机记录的每日限速违规行为。此数据集反映了作为...
2019-10-19 -
20news 新闻数据
<h2>20个新闻组数据集</h2> <p>20个新闻组数据集是大约20,000个新闻组文档的集合,在20个不同的新闻组中均匀...
2019-10-19 -
Amazon 无锁手机用户评论数据
Amazon 无锁手机评论数据是一个商品评论数据,抓取了40万条亚马逊网站上无锁移动手机的价格、用户评分、评论...
2019-10-19 -
斯坦福问答数据集
<p>日常生活中,我们常常通过参与包含一系列问答的对话获取信息。想让机器帮助我们收集信息,就需要让它具备回...
2019-10-19 -
RCV1-2 英文新闻数据
RCV1-2 是一个路透社(Ruters)英文新闻文本及对应新闻类别数据,可用以进行文本分类和其它自然语言处理(NLP)任务。...
2019-10-19 -
新加坡国立大学NUS SMS短信数据语料库
<font>短消息服务(SMS)消息是从一个人从他们的移动电话发送到另一个人的短消息。</font><font>它们代表了一种...
2019-10-19 -
中文文本词语搭配库语料库
互联网词语搭配关系库来自于对SOGOU搜索引擎所索引到的中文互联网语料的统计分析,统计所进行的时间是2006年1...
2019-10-19 -
澳大利亚选举2019年推文数据
<p>在2019年的澳大利亚大选期间,在推特发表的选举内容讨论。此数据进行舆情分析、观点分析论证以及情绪分析...
2019-10-19 -
英文网址分类数据集
<br />为了创建这个大型丰富的网站分类数据集,搜集者提供的链接并选择URL的主要和子类别。共31,000多个站点...
2019-10-19 -
自然语言处理相关数据-互联网词库
<br />互联网词库来自于对SOGOU搜索引擎所索引到的中文互联网语料的统计分析,统计所进行的时间是2006年10月,...
2019-10-19 -
全网新闻文本数据
数据描述 :来自若干新闻站点2012年6月-7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据,提供URL和正文信息<...
2019-10-19 -
航空公司客户服务话语数据
常见的航空公司客户服务话语<br />提供者获得了一个共同的航空公司客户服务方案,例如“您想要取消航班...
2019-10-19 -
某搜索平台分类新闻语料
<strong>数据描述 </strong>:来自多家新闻站点近20个栏目的分类新闻数据。<br /><br /><strong>数据应用:</st...
2019-10-19 -
国内新闻文本语料数据
<strong>数据描述</strong> :来自新闻网站2012年6月-7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据,提供U...
2019-10-19