之间网

产生更自然合成语音的新模型

生活
导读 最近的技术进步推动了计算工具的开发,这些工具可以显著改善残疾人或感官障碍人士的生活质量。这些工具包括所谓的肌电图到语音 (ETS) 转...

最近的技术进步推动了计算工具的开发,这些工具可以显著改善残疾人或感官障碍人士的生活质量。这些工具包括所谓的肌电图到语音 (ETS) 转换模型,旨在将骨骼肌产生的电信号转换为语音。

不来梅大学和 SUPSI 的研究人员最近推出了 Diff-ETS,这是一种可以产生更自然的合成语音的ETS 转换模型。该模型在发布到预印本服务器arXiv的一篇论文中进行了介绍,可用于开发新系统,使无法说话的人(例如接受喉切除术(一种切除部分人类声带的手术)的患者)能够与他人交流。

之前介绍的 ETS 转换技术大多包含两个关键组件:肌电图 (EMG) 编码器和声码器。肌电图 (EMG) 编码器可以将 EMG 信号转换为声学语音特征,而声码器则利用这些语音特征来合成语音信号。

“由于可用数据量不足和噪声信号,合成语音通常表现出较低的自然度,”赵韧、凯文·谢克和他们的同事在论文中写道。“在这项研究中,我们提出了 Diff-ETS,这是一种 ETS 模型,它使用基于分数的扩散概率模型来增强合成语音的自然度。扩散模型用于提高 EMG 编码器预测的声学特征的质量。”

与过去开发的许多其他 ETS 转换模型(由编码器和声码器组成)不同,研究人员的模型有三个组件,即 EMG 编码器、扩散概率模型和声码器。因此,扩散概率模型(这些组件中的第二个)是新增加的,它可以产生更自然的合成语音。

Ren、Scheck 及其同事训练 EMG 编码器,使其能够根据 EMG 信号预测所谓的对数梅尔声谱图(即音频信号的视觉表示)和音素目标。另一方面,扩散概率模型经过训练,可以增强对数梅尔声谱图,而预训练的声码器可以将该声谱图转换为合成语音。

研究人员在一系列测试中评估了 Diff-ETS 模型,并将其与基线 ETS 技术进行了比较。他们的发现非常有希望,因为它合成的语音比基线方法产生的语音更自然、更像人类。

“在我们的实验中,我们评估了根据预先训练的 EMG 编码器的预测对扩散模型进行微调,并以端到端的方式训练这两个模型,”Ren、Scheck 及其同事在论文中写道。“我们使用客观指标和听力测试将 Diff-ETS 与没有扩散的基线 ETS 模型进行了比较。结果表明,所提出的 Diff-ETS 显著提高了语音自然度。”

未来,该研究团队开发的 ETS 转换模型可用于开发更好的人工语音生成技术。这些系统可以让无法说话的人大声表达自己的想法,从而促进他们与他人的互动。

研究人员写道:“在未来的努力中,我们可以使用各种方法减少模型参数的数量,例如模型压缩和知识提炼,从而实时生成语音样本。”“此外,扩散模型可以与编码器和声码器一起训练,以进一步提高语音质量。”

标签: