原创投稿 行业报告 AI展会 数据标注
投稿发布
您的当前位置:首页 > 下载中心 > NLP > 正文

用于命名实体识别的带注释语料库

发布:可思数据 时间:2020-08-02
数据类型:文本语料 热度

文件类型:.zip              文件大小:164 MB

授权方式:公共开源     发布时间:2020-08-02

数据来源:Abhinav Walia             数据语言:英文

数据介绍:

用于命名实体识别的带注释语料库

具有IOB和POS标签的功能工程语料库

上下文:带
名称的实体识别的注释语料库使用GMB(格罗宁根意思银行)语料库进行实体分类,并通过对数据集进行自然语言处理来增强和流行功能。

提示:如果使用Python方便起见,请使用Pandas Dataframe加载数据集。

内容
这是GMB语料库的摘录,经过标记,注释和构建,专门用于训练分类器以预测命名的实体,例如名称,位置等。


标记实体数

'O': 1146068', geo-nam': 58388, 'org-nam': 48034, 'per-nam': 23790, 'gpe-nam': 20680, 'tim-dat': 12786, 'tim-dow': 11404, 'per-tit': 9800, 'per-fam': 8152, 'tim-yoc': 5290, 'tim-moy': 4262, 'per-giv': 2413, 'tim-clo': 891, 'art-nam': 866, 'eve-nam': 602, 'nat-nam': 300, 'tim-nam': 146, 'eve-ord': 107, 'per-ini': 60, 'org-leg': 60, 'per-ord': 38, 'tim-dom': 10, 'per-mid': 1, 'art-add': 1

有关实体的基本信息

  • geo =地理实体
  • org =组织
  • 每人=人
  • gpe =地缘政治实体
  • tim =时间指示器
  • 艺术=神器
  • 前夕=事件
  • nat =自然现象

总字数= 1354149
目标数据列:“标签”

启示:由于此数据集的最新版本增加了更多功能,因此该数据集变得越来越有趣。此外,它还有助于针对该数据集创建特征工程的广泛视图

为什么该数据集有用或有趣?

听起来可能对早期版本不太感兴趣,但是当您能够从自己的句子中选择具有更多功能的意图和自定义命名实体时,它就会变得有趣,并可以帮助您解决实际的业务问题(例如从Electronic Medical Records中选择实体)等)

请随时提出问题,进行修改,让我们一起玩!

下载地址:

特别声明:

¤ 此数据集库仅供研究和教育用途,不得用于任何商业用途。
¤ 如果您在任何出版物或报告中使用该数据库,则必须添加引用本站来源。
¤ 版权归作者及所在组织所有。
¤ 如用于商业用途,请联系版权所有人。
¤ 本站数据来源于网络如有侵权请联系我们。
¤ 本站数据压缩包统一解压密码:www.sykv.com
人工智能权威社区
人工智能交流群扫码邀请

相关推荐:

网友评论:

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

数据标注服务
sem搜索推广

Copyright©2005-2020 Sykv.com 可思数据 版权所有    京ICP备14056871号

关于我们   免责声明   广告合作   版权声明   联系我们   原创投稿   网站地图  

可思数据 数据标注行业联盟

人工智能资讯   人工智能资讯   人工智能资讯   人工智能资讯

扫码入群
咨询反馈
扫码关注

微信公众号

返回顶部
关闭