用于命名实体识别的带注释语料库
具有IOB和POS标签的功能工程语料库
名称的实体识别的注释语料库使用GMB(格罗宁根意思银行)语料库进行实体分类,并通过对数据集进行自然语言处理来增强和流行功能。
内容:
这是GMB语料库的摘录,经过标记,注释和构建,专门用于训练分类器以预测命名的实体,例如名称,位置等。
标记实体数:
'O': 1146068', geo-nam': 58388, 'org-nam': 48034, 'per-nam': 23790, 'gpe-nam': 20680, 'tim-dat': 12786, 'tim-dow': 11404, 'per-tit': 9800, 'per-fam': 8152, 'tim-yoc': 5290, 'tim-moy': 4262, 'per-giv': 2413, 'tim-clo': 891, 'art-nam': 866, 'eve-nam': 602, 'nat-nam': 300, 'tim-nam': 146, 'eve-ord': 107, 'per-ini': 60, 'org-leg': 60, 'per-ord': 38, 'tim-dom': 10, 'per-mid': 1, 'art-add': 1
有关实体的基本信息:
- geo =地理实体
- org =组织
- 每人=人
- gpe =地缘政治实体
- tim =时间指示器
- 艺术=神器
- 前夕=事件
- nat =自然现象
总字数= 1354149
目标数据列:“标签”