brat是一个基于Web的文本注释工具; 也就是说,用于向现有文本文档添加注释。
brat特别适用于结构化 注释,其中注释不是自由形式的文本,而是具有可由计算机自动处理和解释的固定形式。
下面的屏幕截图显示了一个简单的例子,其中一个句子被注释以识别一些真实世界实体(事物)及其类型的提及,以及两者之间的关系。
示例注释(部分遵循ACE 2005实体和关系注释指南)
此示例说明了两个基本类别的注释:
- 文本跨度注释,例如在示例中标有“ 组织”和“ 人员”类型的 注释
- 关系注释,例如 示例中的Family关系
简单类型文本跨度类别适用于为命名实体识别创建注释,以及用于简单关系信息提取任务的二元关系等。
brat还支持n- association关联的注释,这些关联可以将参与特定角色的任意数量的其他注释链接在一起。此类注释可用于事件注释,例如以下示例中的TRANSFER:
示例注释(部分遵循ACE 2005实体,关系和事件注释指南)
可以通过使用可以在注释上设置的属性来进一步指定其他注释的详细类型和属性,例如将事件标记为事实或推测,或者将实体提及标记为引用组或个体。
为了允许特定文本表达式引用的真实世界实体的唯一标识,brat还支持 将其他注释与Wikipedia等资源中的条目相关联的规范化注释(brat v1.3(Crunchy Frog)和更新版本):
用于标准化注释的信息弹出窗口,显示来自维基百科的信息(图片©AndrésMonroy,获得许可的CC-BY-SA)
最后,尽管不是该工具的主要焦点,但是brat还允许将自由形式的文本“ 注释 ”添加到注释中。
应用的注释类别,它们的类型以及关于它们的使用的 约束(例如, Family关系必须始终连接Person类型的注释)都是完全可配置的,允许brat几乎应用于任何文本注释任务。
brat还实现了许多依赖 自然语言处理技术的功能,以支持人类注释工作。
全面可视化
小写注释可视化基于“你看到的就是你得到的”的概念:基础注释的所有方面都以直观的方式直观地表示。
注释可视化
直观的编辑
注释编辑是基于鼠标的,并使用文本编辑器,演示软件和许多其他工具熟悉的直观“手势”。要标记文本范围,只需通过“拖动”或双击单词鼠标选择它。
选择注释文本
连接注释(例如,在两个注释之间添加关系)同样简单:在一个注释上单击鼠标并将连接拖到另一个注释上。
连接注释
与外部资源集成
从v1.3(Crunchy Frog)开始,brat包括对规范化的支持 以及用于将注释与外部数据库,词汇和本体资源(如Freebase,Wikipedia和Open Biomedical Ontologies)中的数据相关联的各种功能。
显示来自维基百科的信息
零设置
brat完全基于标准Web技术构建,没有必要安装任何本地软件或浏览器插件来使用它。
注释器可以“设置”并开始使用brat,只需在浏览器的地址栏中输入brat安装的地址即可。
(设置一个全新的brat服务器确实需要一些操作,但是在运行Web服务器的任何系统上只需五分钟即可完成。)
任何语言的文本注释
brat服务器和客户端都实现了完整的 Unicode 支持,从而支持近100种不同的脚本。
汉字中的文本注释
任何语言的文本文档都可以转换为 UTF-8编码的 Unicode,可以用与ASCII 格式的文本相同的方式注释。
集成注释比较
从版本1.3开始,brat包含许多用于比较相同文档的多组注释的功能,包括用于识别和标记差异的自动比较以及并排可视化。
注释的并排比较。
这种比较可用于评估自动系统或人类注释器之间的协议,差异的可视化可帮助快速识别常见的错误来源。
每个注释的地址
每个brat注释都可以在brat服务器中唯一地寻址。与服务器的URL一起,这种寻址形式为每个brat注释提供全局唯一的地址。
使用给定的URL聚焦注释
在浏览器中输入这样的地址不仅会显示相关文档,而且还会进一步突出显示特定注释并使其居中。因此,这些地址可用于电子邮件和在线文档和讨论,以简单明确地引用小子中的任何注释。
通过双击注释,可以从显示的对话框轻松访问每个注释的地址。
与自动注释工具集成
brat实现了一个简单的界面,用于将可作为Web服务访问的自动文本注释工具的输出集成到注释工作中。
只需单击一下,即可将自动注释工具作为Web服务调用
brat还具有与最先进的基本注释支持方法的透明集成,例如句子分割(英语和日语)和标记化(日语)。
任何规模的高质量可视化
brat的可视化基于可缩放矢量图形(SVG),可以以任意细节和精度呈现。
放大注释
因此,小写注释可视化本身就是打印质量,可以用作出版物中的数字来说明注释。
SVG允许浏览器的内置缩放功能用于特写或文档注释的高级视图。
缩小概述
轻松导出多种格式
在brat中创建的注释可以通过界面中的几次单击以简单的对峙格式导出 ,可以轻松分析,处理和转换为其他格式。
可视化可以类似地以其原生SVG格式导出,呈现为位图(PNG格式),或转换为其他矢量格式以嵌入到文档(PDF或EPS)中。
始终保存,始终保持最新状态
brat通过透明地将注释器的所有编辑操作传递给brat服务器,消除了工具崩溃,忘记保存工作,甚至完成注释器计算机失败的注释工作的风险。
类似地,在维护由项目上的所有注释器共享的单个权威版数据时,brat服务器消除了出现注释版本冲突或使用过时数据的可能性以及注释器使用a的需要。单独的版本控制系统,用于协调他们的工作。
实时协作
brat客户端 - 服务器体系结构和设计允许多个注释器同时在同一文档集合上工作,甚至在同一文档上,看到彼此的编辑几乎就像它们一样(某些延迟是通信中固有的)。
所有编辑操作都由服务器协调,以确保即使多个用户尝试同时修改单个注释,注释仍保持一致。
详细的注释过程测量
brat可以选择性地配置为记录注释器打开文档的精确时间,每个编辑操作,甚至是在选择放置注释的位置后选择要分配给注释的类型所花费的时间。
丰富的注释原语集
brat提供了一组丰富的基本注释类别:文本跨度标记(例如实体注释),二元关系,等价类,n元关联(例如事件注释)和属性可以任意组合应用于定义特定注释任务。
可以应用brat的许多注释任务中的一些在示例页面上呈现。
完全可配置
注释的所有方面都使用简单的声明性配置语言进行配置。每个文档集合都有自己的配置,允许单个brat服务器托管具有不同注释目标的许多项目。
此外,可以使用记录良好且广为人知的HTML / CSS样式规范来详细控制可视化的大多数方面,例如字体,注释“框”和“弧”颜色以及箭头和弧形绘制样式。
始终有效
brat结合了注释验证,能够检查可以在其表达配置中定义的所有约束。
在brat中创建的注释的验证不会被隔离到单独的过程中,而是紧密集成到注释过程中:在每个编辑选项之后检查注释的有效性,通过简单的视觉提示为注释者提供即时反馈。
示例不完整的注释和详细信息
没有强制部分的注释没有给出彩色填充并给出灰色突出显示。将鼠标放在这样的注释上可提供注释验证器检测到的问题的详细信息。
带有错误和详细信息的示例注释
具有额外或错误部分的注释被赋予红色“光环”,其指示注释的问题。同样,将鼠标放在这样的注释上会详细说明检测到的问题。
搜索
brat实现了一整套函数,用于搜索文档或文档集合,以获得具有一组详细可配置约束的任何类型的注释。
显示高级设置的文本搜索
语料库检索
brat支持搜索结果的基本关键词 - 上下文(KWIC)风格的协调。
搜索结果与协调