地球资源数据云——数据资源详情

Twitter 上的客户支持

发布时间:2025-08-15 15:31:14资源ID:1795资源类型:免费

自然语言仍然是我们拥有的人类经验最密集的编码,NLP 的创新加速了对这些数据的理解,但推动这一创新的数据集与当今使用的真实语言并不匹配。Twitter 上的客户支持数据集提供了 Twitter 上消费者和客户支持代理之间的大量现代英语(大部分)对话语料库,并且与其他对话文本数据集相比具有三个重要优势: 专注 - 消费者联系客户支持来解决特定问题,并且要讨论的问题相对较少,特别是与 reddit 语料库等不受约束的对话数据集相比。 自然 - 该数据集中的消费者来自比 Ubuntu 对话语料库中的消费者更广泛的群体,并且比康奈尔电影对话语料库中的消费者更自然和最近地使用键入文本。 简洁 - Twitter 的简洁使得支持人员能够做出更自然的反应(而不是照本宣科),并对问题和解决方案进行中肯的描述。此外,它还方便地允许循环网络的消息限制大小相对较低。 灵感 该数据集的规模和广度激发了许多有趣的问题: 我们可以预测公司的反应吗?考虑到每家公司处理的主题是有限的,答案似乎是肯定的! 请求会过时吗?与最差的公司相比,最好的公司的反应速度有多快? 我们可以学习高质量的密集嵌入或主题聚类的相似性表示吗? 语气如何影响客户支持对话?说对不起有用吗?

Twitter 上的客户支持

摘要概览

自然语言仍然是我们拥有的人类经验最密集的编码,NLP 的创新加速了对这些数据的理解,但推动这一创新的数据集与当今使用的真实语言并不匹配。Twitter 上的客户支持数据集提供了 Twitter 上消费者和客户支持代理之间的大量现代英语(大部分)对话语料库,并且与其他对话文本数据集相比具有三个重要优势:

专注 - 消费者联系客户支持来解决特定问题,并且要讨论的问题相对较少,特别是与 reddit 语料库等不受约束的对话数据集相比。

自然 - 该数据集中的消费者来自比 Ubuntu 对话语料库中的消费者更广泛的群体,并且比康奈尔电影对话语料库中的消费者更自然和最近地使用键入文本。

简洁 - Twitter 的简洁使得支持人员能够做出更自然的反应(而不是照本宣科),并对问题和解决方案进行中肯的描述。此外,它还方便地允许循环网络的消息限制大小相对较低。

灵感

该数据集的规模和广度激发了许多有趣的问题:

我们可以预测公司的反应吗?考虑到每家公司处理的主题是有限的,答案似乎是肯定的!

请求会过时吗?与最差的公司相比,最好的公司的反应速度有多快?

我们可以学习高质量的密集嵌入或主题聚类的相似性表示吗?

语气如何影响客户支持对话?说对不起有用吗?