Google研发的AI模型可以从文本甚至图像中生成高保真音乐

0 cnBeta.COM 2023-01-27 20:19:12

摘要：

来自Google的研究人员发表了一篇论文，称他们创建了一个从文本描述中生成高保真音乐的模型。它被称为MusicLM，根据人工智能科学家Keunwoo Choi的说法，这个模型的整体结构是基于其他模型的，它结合了MuLan + AudioLM和MuLan + w2b-Bert + Soundstream。

Choi解释了一下这些模型各自的工作原理：

MuLan是一个文本-音乐联合嵌入模型，支持对比性训练和来自YouTube的44M音乐音频-文本描述对。

AudioLM使用一个来自语音预训练模型的中间层来获取语义信息。

w2v-BERT是一个来自Transformers的双向编码器表表达法，这是一个最初用于语音的深度学习工具，这次用于音频。

SoundStream是一个神经音频编解码器。

Google将所有这些结合起来，产生了从文本中生成音乐的AI模型，以下是研究人员对MusicLM的解释。

MusicLM是一个从文本描述中生成高保真音乐的模型，如"平静的小提琴旋律伴着扭曲的吉他旋律"。MusicLM将有条件的音乐生成过程作为一个层次化的序列到序列的建模任务，它生成的音乐频率为24KHz，时长可以达到几分钟。实验表明，MusicLM在音频质量和对文本描述的遵守方面都优于以前的系统。此外，还可以证明MusicLM可以以文本和旋律为条件，因为它可以根据文本说明中描述的风格来转换口哨和哼唱的旋律。为了支持未来的研究，我们公开发布了MusicCaps，这是一个由5500首音乐-文本对组成的数据集，其中有人类专家提供的丰富文本描述。