近几十年来,许多工程师开始开发基于人工智能(AI)的工具,以支持创意专业人士的工作,加快或增强不同类型内容的制作。其中包括可以生成音乐曲目并促进音乐制作某些方面的计算模型。
索尼CSL的研究人员一直在研究各种人工智能解决方案,旨在帮助音乐家、音乐制作人和其他音乐爱好者完成他们的创作。在最近发布到arXiv预印本服务器的一篇论文中,他们介绍了Diff-A-Riff,这是一种很有前途的计算模型,可以为任何音乐生成高质量的乐器伴奏。
索尼CSL巴黎音乐团队告诉TechXplore:“我们最近的论文建立在我们之前关于生成低音伴奏的研究基础之上。”“虽然我们之前的工作重点是创建低音线来补充现有音轨,但Diff-A-Riff扩展了这一概念,可以生成任何乐器类型的单乐器伴奏。”
“这种演变受到音乐制作人和艺术家的实际需求的启发,他们经常寻求通过添加其他乐器来增强现有作品的工具,并且希望在乐器类型/音色方面具有灵活性。”
索尼CSL巴黎音乐团队近期工作的首要目标是创建一个多功能AI系统,该系统可以生成高品质的乐器伴奏,与给定的音乐背景无缝融合,每次只关注一种乐器。他们开发的工具基于两种独特而强大的深度学习技术:潜在扩散模型和一致性自动编码器。
他们解释说:“Diff-A-Riff利用潜在扩散模型和一致性自动编码器的强大功能来生成与特定音乐环境的风格和调性相匹配的乐器伴奏。”
“系统首先使用预先训练的一致性自动编码器(内部开发的编解码器)将输入音频压缩为潜在表示,该编码器通过生成解码器保证高质量解码。然后,将压缩后的表示输入到我们的潜在扩散模型中,该模型根据输入上下文和来自文本或音频嵌入的可选样式参考,在潜在空间中生成新音频。”
与其他乐器伴奏生成工具相比,Diff-A-Riff具有许多优势。首先是其多功能控制,允许用户调节音频和文本提示,为他们在指导伴奏生成方面提供更大的灵活性。此外,Diff-A-Riff可产生高质量的输出,具有48kHz的伪立体声音频。
“与之前的系统相比,Diff-A-Riff还显著减少了推理时间和内存使用量,因为我们使用的是64倍压缩率,”该团队解释道。“我们发现它可以为任何音乐背景生成伴奏,使其成为音乐制作人和艺术家的宝贵工具。
“此外,它还具有附加控制功能,例如乐器参考和文本提示之间的插值、立体声宽度的定义以及为循环创建无缝过渡的可能性。”
SonyCSL音乐团队通过一系列测试评估了他们的模型。他们的发现非常有希望,因为该模型为各种音乐曲目生成了高质量的乐器伴奏,而人类听众无法将其与人类音乐家演奏的录音伴奏区分开来。
他们表示:“一分钟音频的生成速度为三秒,这是前所未有的,这是通过一致性自动编码器的高压缩比实现的。”“在现实世界中,Diff-A-Riff可以应用于音乐制作、创意协作和声音设计。”
SonyCSL开发的乐器伴奏生成工具很快就能被世界各地的音乐制作人使用,使他们能够创作出与现有作品相得益彰的乐器曲目。艺术家还可以使用Diff-A-Riff轻松探索新的音乐创意,音响设计师也可以使用Diff-A-Riff快速测试项目的不同音色或演奏风格。
该团队补充道:“我们未来的研究计划包括通过改进控制机制来增强Diff-A-Riff的功能,并探索将模型整合到音乐制作过程的各个阶段的新方法。”
“我们的目标是提供更直观的输入,使模型更容易被艺术家(包括业余爱好者和专业人士)使用和使用。此外,我们计划与音乐家和作曲家合作,进一步完善和验证我们的模型,确保它们满足音乐行业用户的实际需求。”