数据格式: 页面URL 页面ID 页面标题 页面内容
适用范围:用于机器学习分类算法的新闻分类数据,
格式说明:
数据格式为
<doc>
<url>页面URL</url>
<docno>页面ID</docno>
<contenttitle>页面标题</contenttitle>
<content>页面内容</content>
</doc>
注意:content字段去除了HTML标签,保存的是新闻正文文本
数据量:640M
数据格式为
<doc>
<url>页面URL</url>
<docno>页面ID</docno>
<contenttitle>页面标题</contenttitle>
<content>页面内容</content>
</doc>
注意:content字段去除了HTML标签,保存的是新闻正文文本
数据量:640M
特别声明:
¤ 此数据集库仅供研究和教育用途,不得用于任何商业用途。相关文章:
相关推荐:
网友评论: