原创投稿 行业报告 AI展会 数据标注
投稿发布
您的当前位置:首页 > 下载中心 > NLP > 正文

Ubuntu对话语料库

发布:可思数据 时间:2020-06-03
数据类型:文本语料 热度

文件类型:.zip              文件大小:3 GB

授权方式:公共开源     发布时间:2020-06-03

数据来源:Rachael Tatman             数据语言:英文

数据介绍:

Ubuntu对话语料库自然的两人对话产生2600万次对话数据。

建立对话系统(人类可以与虚拟代理进行自然对话)是自然语言处理中的一项艰巨任务,也是许多正在进行的研究的重点。一些挑战包括随着时间的推移将引用链接到同一实体,跟踪先前对话中发生的情况以及生成适当的响应。这种自然发生的对话的语料库有助于建立和评估对话系统。

内容:

新的Ubuntu对话语料库包括从Ubuntu聊天记录中提取的近一百万个两人对话,用于获得针对与Ubuntu相关的各种问题的技术支持。每次对话平均8轮,至少3轮。所有对话均以文本形式(而非音频)进行。

完整的数据集包含930,000个对话和超过1亿个单词该数据集包含分布在.csv文件中的该数据集的样本。该数据集包含超过2.69亿个单词的文本,分布了2600万转。

  • 文件夹:对话所来自的文件夹。每个文件都包含一个文件夹中的对话。
  • dialogID:特定对话的ID号。对话ID在各个文件夹中重复使用。
  • date:此对话的发送时间的时间戳。
  • 来自:发送该行对话的用户。
  • 收件人:他们正在答复的用户。对话的第一轮,该字段为空白。
  • 文字:该轮对话的文字,用双引号(“)隔开。换行符(\ n)已被删除。

该数据集由Ryan Lowe,Nissan Pow,Iulian V.Serban†和Joelle Pineau收集。在Apache许可2.0下可以在此处使用。如果您在工作中使用此数据,请提供以下引用:

Ryan Lowe,Nissan Pow,Iulian V. Serban和Joelle Pineau,“ Ubuntu对话语料库:用于非结构化多对话系统的大型数据集”,SIGDial2015。

下载地址:

特别声明:

¤ 此数据集库仅供研究和教育用途,不得用于任何商业用途。
¤ 如果您在任何出版物或报告中使用该数据库,则必须添加引用本站来源。
¤ 版权归作者及所在组织所有。
¤ 如用于商业用途,请联系版权所有人。
¤ 本站数据来源于网络如有侵权请联系我们。
¤ 本站数据压缩包统一解压密码:www.sykv.com
人工智能权威社区
人工智能交流群扫码邀请

相关文章:

    无相关信息

相关推荐:

网友评论:

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

数据标注服务

Copyright©2005-2020 Sykv.com 可思数据 版权所有    京ICP备14056871号

关于我们   免责声明   广告合作   版权声明   联系我们   原创投稿   网站地图  

可思数据 数据标注行业联盟

人工智能资讯   人工智能资讯   人工智能资讯   人工智能资讯

扫码入群
咨询反馈
扫码关注

微信公众号

返回顶部
关闭