分词库(语料),最常见的比如搜狗分词库,结巴词库;
这里比较推荐分词_频数_词性@35万_结巴.txt 和 分词_拼音@4万_搜狗.txt两个词库。如果你有一些比如拼音需求,也可以选择对应文本;
需要注意的一点是,有一个分类_分词@12大类5485文本1127万_搜狗.20151022.tar.gz文件,这个是搜狗细胞词库所有的词了,里面包含非常多的各行业词汇,如下图,在针对特定行业ML时候,这些分词应该是比较有帮助的,都非常不错。
分词库语料数据
发布:可思数据
时间:2020-04-02
数据介绍:
下载地址:
特别声明:
¤ 此数据集库仅供研究和教育用途,不得用于任何商业用途。¤ 如果您在任何出版物或报告中使用该数据库,则必须添加引用本站来源。
¤ 版权归作者及所在组织所有。
¤ 如用于商业用途,请联系版权所有人。
¤ 本站数据来源于网络如有侵权请联系我们。
¤ 本站数据压缩包统一解压密码:www.sykv.com
人工智能交流群扫码邀请
相关文章:
-
无相关信息
相关推荐:
网友评论:
数据集分类
最新数据集
推荐数据集