原创投稿 行业报告 AI展会 数据标注
投稿发布
您的当前位置:首页 > 下载中心 > 文本语料 > 正文

分词库语料数据

发布:可思数据 时间:2020-04-02
数据类型:文本语料 热度

文件类型:.zip              文件大小:80 MB

授权方式:公共开源     发布时间:2020-04-02

数据来源:NET             数据语言:中文

数据介绍:
分词库(语料),最常见的比如搜狗分词库,结巴词库;
这里比较推荐分词_频数_词性@35万_结巴.txt 和 分词_拼音@4万_搜狗.txt两个词库。如果你有一些比如拼音需求,也可以选择对应文本;
需要注意的一点是,有一个分类_分词@12大类5485文本1127万_搜狗.20151022.tar.gz文件,这个是搜狗细胞词库所有的词了,里面包含非常多的各行业词汇,如下图,在针对特定行业ML时候,这些分词应该是比较有帮助的,都非常不错。

 
下载地址:

特别声明:

¤ 此数据集库仅供研究和教育用途,不得用于任何商业用途。
¤ 如果您在任何出版物或报告中使用该数据库,则必须添加引用本站来源。
¤ 版权归作者及所在组织所有。
¤ 如用于商业用途,请联系版权所有人。
¤ 本站数据来源于网络如有侵权请联系我们。
¤ 本站数据压缩包统一解压密码:www.sykv.com
人工智能权威社区
人工智能交流群扫码邀请

相关文章:

    无相关信息

相关推荐:

网友评论:

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

数据标注服务
sem搜索推广

Copyright©2005-2020 Sykv.com 可思数据 版权所有    京ICP备14056871号

关于我们   免责声明   广告合作   版权声明   联系我们   原创投稿   网站地图  

可思数据 数据标注行业联盟

人工智能资讯   人工智能资讯   人工智能资讯   人工智能资讯

扫码入群
咨询反馈
扫码关注

微信公众号

返回顶部
关闭