Google DeepMind的新AI可以为视频生成配乐和对白

0 cnBeta.COM 2024-06-18 02:18:25

摘要：

Google的人工智能研究实验室 DeepMind 表示，它正在开发为视频生成配乐的人工智能技术。DeepMind 在其官方博客上发表文章称，它认为 V2A（"视频到音频"的缩写）技术是人工智能生成媒体拼图中必不可少的一部分。虽然包括 DeepMind在内的许多机构已经开发出了视频生成人工智能模型，但这些模型无法在生成视频时同步生成音效。

DeepMind 写道："视频生成模型正以惊人的速度发展，但目前的许多系统只能生成无声输出。V2A技术[可能]成为让生成的电影栩栩如生的一种有前途的方法"。

DeepMind的V2A技术可以将配乐描述（例如"水母在水下跳动、海洋生物、海洋"）与视频配对，创造出与视频中的人物和语气相匹配的音乐、音效甚至对话，并通过DeepMind的SynthID深度防伪技术打上水印。DeepMind 表示，为 V2A 提供动力的人工智能模型（一种扩散模型）是在声音和对话文本以及视频剪辑的组合上训练出来的。

DeepMind 写道："通过对视频、音频和附加注释进行训练，我们的技术学会了将特定音频事件与各种视觉场景联系起来，同时对注释或文本中提供的信息做出响应。"关于训练数据是否受版权保护，以及数据创建者是否被告知 DeepMind 的工作，目前还不得而知。

人工智能驱动的声音生成工具并不新鲜。创业公司 Stability AI 上周刚刚发布了一款，ElevenLabs 在 5 月份也推出了一款。创建视频音效的模型也不新鲜。微软的一个项目可以从静止图像中生成说话和唱歌视频，Pika和GenreX等平台已经训练出模型，可以获取视频并猜测特定场景中适合的音乐或效果。

但 DeepMind 声称，其 V2A 技术的独特之处在于，它可以理解视频中的原始像素，并自动将生成的声音与视频同步，还可以选择不加说明。