地球资源数据云——数据资源详情

语音活动检测数据集

Name: 语音活动检测数据集
Published: 2025-08-15 15:31:16

发布时间：2025-08-15 15:31:16资源ID：2007资源类型：免费

语音活动检测任务区分出现人类语音和其他类型声音（例如静音和噪音）的信号片段。它非常关键和重要，因为它是许多语音/音频应用的起点，包括语音编码、语音识别和语音增强。由于此类任务没有特定的公共数据集，我从三个不同的数据库收集了 719 个音频： TIMIT：是一个读取语音的语料库，旨在为声学和语音研究以及自动语音识别系统的评估提供语音数据。 PTDB - TUG：是一个用于音调跟踪的语音数据库，提供 20 个英语使用者的麦克风信号。 Noizeus：包含 30 个句子的语音数据。噪声信号（来自 AURORA 数据库）被人为地添加到语音信号中，特别是该数据库包含因胡言乱语（前人人群）、街道、火车、火车站、汽车和餐馆噪声而损坏的音频，信噪比为 5dB，而原始噪声信号。内容 Praat是一种有用的语音分析工具，它提供了广泛的功能，其中一个功能是创建一个注释文件，以 txt 格式写入信号中的无声间隔和发声间隔。对于来自 TIMIT 和 PTDB - TUG 的数据，静音对应于非语音，发声间隔对应于语音，因为这些数据库没有任何类型的背景噪声。相反，对于来自 Noizeus 的那些文件，我的工作方式略有不同，因为数据库也有原始音频（无噪声），我将每个噪声文件与相应无噪声文件的注释相关联。所有音频文件都是.wav，所有注释文件都是.TextGrid。此类文件的结构在文件夹的说明中进行了描述。可以使用合适的 python 库读取注释：https://pypi.org/project/praat - textgrids/

摘要概览

语音活动检测任务区分出现人类语音和其他类型声音（例如静音和噪音）的信号片段。

它非常关键和重要，因为它是许多语音/音频应用的起点，包括语音编码、语音识别和语音增强。

由于此类任务没有特定的公共数据集，我从三个不同的数据库收集了 719 个音频：

TIMIT：是一个读取语音的语料库，旨在为声学和语音研究以及自动语音识别系统的评估提供语音数据。

PTDB - TUG：是一个用于音调跟踪的语音数据库，提供 20 个英语使用者的麦克风信号。

Noizeus：包含 30 个句子的语音数据。噪声信号（来自 AURORA 数据库）被人为地添加到语音信号中，特别是该数据库包含因胡言乱语（前人人群）、街道、火车、火车站、汽车和餐馆噪声而损坏的音频，信噪比为 5dB，而原始噪声信号。

内容

Praat是一种有用的语音分析工具，它提供了广泛的功能，其中一个功能是创建一个注释文件，以 txt 格式写入信号中的无声间隔和发声间隔。对于来自 TIMIT 和 PTDB - TUG 的数据，静音对应于非语音，发声间隔对应于语音，因为这些数据库没有任何类型的背景噪声。相反，对于来自 Noizeus 的那些文件，我的工作方式略有不同，因为数据库也有原始音频（无噪声），我将每个噪声文件与相应无噪声文件的注释相关联。

所有音频文件都是.wav，所有注释文件都是.TextGrid。此类文件的结构在文件夹的说明中进行了描述。

可以使用合适的 python 库读取注释：https://pypi.org/project/praat - textgrids/

常见问题

语音活动检测数据集是什么？

语音活动检测任务区分出现人类语音和其他类型声音（例如静音和噪音）的信号片段。

语音活动检测数据集可以用于什么？

由于此类任务没有特定的公共数据集，我从三个不同的数据库收集了 719个音频： TIMIT：是一个读取语音的语料库，旨在为声学和语音研究以及自动语音识别系统的评估提供语音数据。

如何获取并引用语音活动检测数据集？

在本页登录后即可下载。建议引用格式：地球资源数据云. 语音活动检测数据集. https://www.gis5g.com/dataset/2007