用于命名实体识别的带注释语料库
具有IOB和POS标签的功能工程语料库
上下文:带
名称的实体识别的注释语料库使用GMB(格罗宁根意思银行)语料库进行实体分类,并通过对数据集进行自然语言处理来增强和流行功能。
提示:如果使用Python方便起见,请使用Pandas Dataframe加载数据集。
内容:
这是GMB语料库的摘录,经过标记,注释和构建,专门用于训练分类器以预测命名的实体,例如名称,位置等。
标记实体数:
'O': 1146068', geo-nam': 58388, 'org-nam': 48034, 'per-nam': 23790, 'gpe-nam': 20680, 'tim-dat': 12786, 'tim-dow': 11404, 'per-tit': 9800, 'per-fam': 8152, 'tim-yoc': 5290, 'tim-moy': 4262, 'per-giv': 2413, 'tim-clo': 891, 'art-nam': 866, 'eve-nam': 602, 'nat-nam': 300, 'tim-nam': 146, 'eve-ord': 107, 'per-ini': 60, 'org-leg': 60, 'per-ord': 38, 'tim-dom': 10, 'per-mid': 1, 'art-add': 1
有关实体的基本信息:
- geo =地理实体
- org =组织
- 每人=人
- gpe =地缘政治实体
- tim =时间指示器
- 艺术=神器
- 前夕=事件
- nat =自然现象
总字数= 1354149
目标数据列:“标签”
启示:由于此数据集的最新版本增加了更多功能,因此该数据集变得越来越有趣。此外,它还有助于针对该数据集创建特征工程的广泛视图。
为什么该数据集有用或有趣?
听起来可能对早期版本不太感兴趣,但是当您能够从自己的句子中选择具有更多功能的意图和自定义命名实体时,它就会变得有趣,并可以帮助您解决实际的业务问题(例如从Electronic Medical Records中选择实体)等)
请随时提出问题,进行修改,让我们一起玩!