地球资源数据云——数据资源详情
语音活动检测任务区分出现人类语音和其他类型声音(例如静音和噪音)的信号片段。 它非常关键和重要,因为它是许多语音/音频应用的起点,包括语音编码、语音识别和语音增强。 由于此类任务没有特定的公共数据集,我从三个不同的数据库收集了 719 个音频: TIMIT:是一个读取语音的语料库,旨在为声学和语音研究以及自动语音识别系统的评估提供语音数据。 PTDB - TUG:是一个用于音调跟踪的语音数据库,提供 20 个英语使用者的麦克风信号。 Noizeus:包含 30 个句子的语音数据。噪声信号(来自 AURORA 数据库)被人为地添加到语音信号中,特别是该数据库包含因胡言乱语(前人人群)、街道、火车、火车站、汽车和餐馆噪声而损坏的音频,信噪比为 5dB,而原始噪声信号。 内容 Praat是一种有用的语音分析工具,它提供了广泛的功能,其中一个功能是创建一个注释文件,以 txt 格式写入信号中的无声间隔和发声间隔。对于来自 TIMIT 和 PTDB - TUG 的数据,静音对应于非语音,发声间隔对应于语音,因为这些数据库没有任何类型的背景噪声。相反,对于来自 Noizeus 的那些文件,我的工作方式略有不同,因为数据库也有原始音频(无噪声),我将每个噪声文件与相应无噪声文件的注释相关联。 所有音频文件都是.wav,所有注释文件都是.TextGrid。此类文件的结构在文件夹的说明中进行了描述。 可以使用合适的 python 库读取注释:https://pypi.org/project/praat - textgrids/

语音活动检测任务区分出现人类语音和其他类型声音(例如静音和噪音)的信号片段。
它非常关键和重要,因为它是许多语音/音频应用的起点,包括语音编码、语音识别和语音增强。
由于此类任务没有特定的公共数据集,我从三个不同的数据库收集了 719 个音频:
TIMIT:是一个读取语音的语料库,旨在为声学和语音研究以及自动语音识别系统的评估提供语音数据。
PTDB - TUG:是一个用于音调跟踪的语音数据库,提供 20 个英语使用者的麦克风信号。
Noizeus:包含 30 个句子的语音数据。噪声信号(来自 AURORA 数据库)被人为地添加到语音信号中,特别是该数据库包含因胡言乱语(前人人群)、街道、火车、火车站、汽车和餐馆噪声而损坏的音频,信噪比为 5dB,而原始噪声信号。
内容
Praat是一种有用的语音分析工具,它提供了广泛的功能,其中一个功能是创建一个注释文件,以 txt 格式写入信号中的无声间隔和发声间隔。对于来自 TIMIT 和 PTDB - TUG 的数据,静音对应于非语音,发声间隔对应于语音,因为这些数据库没有任何类型的背景噪声。相反,对于来自 Noizeus 的那些文件,我的工作方式略有不同,因为数据库也有原始音频(无噪声),我将每个噪声文件与相应无噪声文件的注释相关联。
所有音频文件都是.wav,所有注释文件都是.TextGrid。此类文件的结构在文件夹的说明中进行了描述。
可以使用合适的 python 库读取注释:https://pypi.org/project/praat - textgrids/