原创投稿 行业报告 AI展会数据标注

您的当前位置：首页 > 下载中心 > NLP > 正文

Ubuntu对话语料库

发布：可思数据时间：2020-06-03

数据类型：文本语料热度

数据咨询

数据采集定制

数据标注定制

数据标注定制

文件类型：.zip 文件大小：3 GB

授权方式：公共开源 发布时间：2020-06-03

数据来源：Rachael Tatman 数据语言：英文

数据介绍：

Ubuntu对话语料库自然的两人对话产生2600万次对话数据。

建立对话系统（人类可以与虚拟代理进行自然对话）是自然语言处理中的一项艰巨任务，也是许多正在进行的研究的重点。一些挑战包括随着时间的推移将引用链接到同一实体，跟踪先前对话中发生的情况以及生成适当的响应。这种自然发生的对话的语料库有助于建立和评估对话系统。

内容：

新的Ubuntu对话语料库包括从Ubuntu聊天记录中提取的近一百万个两人对话，用于获得针对与Ubuntu相关的各种问题的技术支持。每次对话平均8轮，至少3轮。所有对话均以文本形式（而非音频）进行。

完整的数据集包含930,000个对话和超过1亿个单词。该数据集包含分布在.csv文件中的该数据集的样本。该数据集包含超过2.69亿个单词的文本，分布了2600万转。

文件夹：对话所来自的文件夹。每个文件都包含一个文件夹中的对话。
dialogID：特定对话的ID号。对话ID在各个文件夹中重复使用。
date：此对话的发送时间的时间戳。
来自：发送该行对话的用户。
收件人：他们正在答复的用户。对话的第一轮，该字段为空白。
文字：该轮对话的文字，用双引号（“）隔开。换行符（\ n）已被删除。

该数据集由Ryan Lowe，Nissan Pow，Iulian V.Serban†和Joelle Pineau收集。在Apache许可2.0下可以在此处使用。如果您在工作中使用此数据，请提供以下引用：

Ryan Lowe，Nissan Pow，Iulian V. Serban和Joelle Pineau，“ Ubuntu对话语料库：用于非结构化多对话系统的大型数据集”，SIGDial2015。

下载地址：

下载提取码：9e28

特别声明：

¤ 此数据集库仅供研究和教育用途，不得用于任何商业用途。
¤ 如果您在任何出版物或报告中使用该数据库，则必须添加引用本站来源。
¤ 版权归作者及所在组织所有。
¤ 如用于商业用途，请联系版权所有人。
¤ 本站数据来源于网络如有侵权请联系我们。
¤ 本站数据压缩包统一解压密码：www.sykv.com

人工智能权威社区

人工智能交流群扫码邀请

下载帮助：

加入收藏夹

上一篇：情感标注句子数据集
下一篇：情感词汇词典极性词汇表

相关文章：

无相关信息

相关推荐：

网友评论：

数据集分类

数据标注服务

最新数据集

sem搜索推广

推荐数据集

Copyright©2005-2020 Sykv.com 可思数据版权所有京ICP备14056871号

关于我们免责声明广告合作版权声明联系我们原创投稿网站地图

可思数据数据标注行业联盟

扫码入群

咨询反馈

客服QQ

微信公众号