原创投稿 行业报告 AI展会数据标注

您的当前位置：首页 > 下载中心 > NLP > 正文

用于命名实体识别的带注释语料库

发布：可思数据时间：2020-08-02

数据类型：文本语料热度

数据咨询

数据采集定制

数据标注定制

数据标注定制

文件类型：.zip 文件大小：164 MB

授权方式：公共开源 发布时间：2020-08-02

数据来源：Abhinav Walia 数据语言：英文

数据介绍：

用于命名实体识别的带注释语料库

具有IOB和POS标签的功能工程语料库

上下文：带
名称的实体识别的注释语料库使用GMB（格罗宁根意思银行）语料库进行实体分类，并通过对数据集进行自然语言处理来增强和流行功能。

提示：如果使用Python方便起见，请使用Pandas Dataframe加载数据集。

内容：
这是GMB语料库的摘录，经过标记，注释和构建，专门用于训练分类器以预测命名的实体，例如名称，位置等。

标记实体数：

'O': 1146068', geo-nam': 58388, 'org-nam': 48034, 'per-nam': 23790, 'gpe-nam': 20680, 'tim-dat': 12786, 'tim-dow': 11404, 'per-tit': 9800, 'per-fam': 8152, 'tim-yoc': 5290, 'tim-moy': 4262, 'per-giv': 2413, 'tim-clo': 891, 'art-nam': 866, 'eve-nam': 602, 'nat-nam': 300, 'tim-nam': 146, 'eve-ord': 107, 'per-ini': 60, 'org-leg': 60, 'per-ord': 38, 'tim-dom': 10, 'per-mid': 1, 'art-add': 1

有关实体的基本信息：

geo =地理实体
org =组织
每人=人
gpe =地缘政治实体
tim =时间指示器
艺术=神器
前夕=事件
nat =自然现象

总字数= 1354149
目标数据列：“标签”

启示：由于此数据集的最新版本增加了更多功能，因此该数据集变得越来越有趣。此外，它还有助于针对该数据集创建特征工程的广泛视图。

为什么该数据集有用或有趣？

听起来可能对早期版本不太感兴趣，但是当您能够从自己的句子中选择具有更多功能的意图和自定义命名实体时，它就会变得有趣，并可以帮助您解决实际的业务问题（例如从Electronic Medical Records中选择实体）等）

请随时提出问题，进行修改，让我们一起玩！

下载地址：

下载提取码：i3p8

特别声明：

¤ 此数据集库仅供研究和教育用途，不得用于任何商业用途。
¤ 如果您在任何出版物或报告中使用该数据库，则必须添加引用本站来源。
¤ 版权归作者及所在组织所有。
¤ 如用于商业用途，请联系版权所有人。
¤ 本站数据来源于网络如有侵权请联系我们。
¤ 本站数据压缩包统一解压密码：www.sykv.com

人工智能权威社区

人工智能交流群扫码邀请

下载帮助：

加入收藏夹

上一篇：欺诈邮件语料库
下一篇：SMS垃圾邮件收集数据集

相关文章：

用于命名实体识别的带注释语料库

相关推荐：

网友评论：

数据集分类

数据标注服务

最新数据集

sem搜索推广

推荐数据集

Copyright©2005-2020 Sykv.com 可思数据版权所有京ICP备14056871号

关于我们免责声明广告合作版权声明联系我们原创投稿网站地图

可思数据数据标注行业联盟

扫码入群

咨询反馈

客服QQ

微信公众号