Ubuntu对话语料库自然的两人对话产生2600万次对话数据。
建立对话系统(人类可以与虚拟代理进行自然对话)是自然语言处理中的一项艰巨任务,也是许多正在进行的研究的重点。一些挑战包括随着时间的推移将引用链接到同一实体,跟踪先前对话中发生的情况以及生成适当的响应。这种自然发生的对话的语料库有助于建立和评估对话系统。
内容:
新的Ubuntu对话语料库包括从Ubuntu聊天记录中提取的近一百万个两人对话,用于获得针对与Ubuntu相关的各种问题的技术支持。每次对话平均8轮,至少3轮。所有对话均以文本形式(而非音频)进行。
完整的数据集包含930,000个对话和超过1亿个单词。该数据集包含分布在.csv文件中的该数据集的样本。该数据集包含超过2.69亿个单词的文本,分布了2600万转。
- 文件夹:对话所来自的文件夹。每个文件都包含一个文件夹中的对话。
- dialogID:特定对话的ID号。对话ID在各个文件夹中重复使用。
- date:此对话的发送时间的时间戳。
- 来自:发送该行对话的用户。
- 收件人:他们正在答复的用户。对话的第一轮,该字段为空白。
- 文字:该轮对话的文字,用双引号(“)隔开。换行符(\ n)已被删除。
该数据集由Ryan Lowe,Nissan Pow,Iulian V.Serban†和Joelle Pineau收集。在Apache许可2.0下可以在此处使用。如果您在工作中使用此数据,请提供以下引用:
Ryan Lowe,Nissan Pow,Iulian V. Serban和Joelle Pineau,“ Ubuntu对话语料库:用于非结构化多对话系统的大型数据集”,SIGDial2015。