Google DeepMind的新AI可以为视频生成配乐和对白

Google的人工智能研究实验室 DeepMind 表示，它正在开发为视频生成配乐的人工智能技术。DeepMind 在其官方博客上发表文章称，它认为 V2A（"视频到音频"的缩写）技术是人工智能生成媒体拼图中必不可少的一部分。虽然包括 DeepMind在内的许多机构已经开发出了视频生成人工智能模型，但这些模型无法在生成视频时同步生成音效。

DeepMind 写道："视频生成模型正以惊人的速度发展，但目前的许多系统只能生成无声输出。V2A技术[可能]成为让生成的电影栩栩如生的一种有前途的方法"。

DeepMind的V2A技术可以将配乐描述（例如"水母在水下跳动、海洋生物、海洋"）与视频配对，创造出与视频中的人物和语气相匹配的音乐、音效甚至对话，并通过DeepMind的SynthID深度防伪技术打上水印。DeepMind 表示，为 V2A 提供动力的人工智能模型（一种扩散模型）是在声音和对话文本以及视频剪辑的组合上训练出来的。

DeepMind 写道："通过对视频、音频和附加注释进行训练，我们的技术学会了将特定音频事件与各种视觉场景联系起来，同时对注释或文本中提供的信息做出响应。"关于训练数据是否受版权保护，以及数据创建者是否被告知 DeepMind 的工作，目前还不得而知。

人工智能驱动的声音生成工具并不新鲜。创业公司 Stability AI 上周刚刚发布了一款，ElevenLabs 在 5 月份也推出了一款。创建视频音效的模型也不新鲜。微软的一个项目可以从静止图像中生成说话和唱歌视频，Pika和GenreX等平台已经训练出模型，可以获取视频并猜测特定场景中适合的音乐或效果。

但 DeepMind 声称，其 V2A 技术的独特之处在于，它可以理解视频中的原始像素，并自动将生成的声音与视频同步，还可以选择不加说明。

V2A 并不完美，DeepMind 也承认这一点。由于底层模型并没有在大量存在伪像或扭曲的视频上进行过训练，因此它并不能为这些视频生成特别高质量的音频。出于这些原因，同时也为了防止滥用，DeepMind 表示不会在短期内（如果有的话）向公众发布这项技术。

DeepMind 写道："为了确保我们的 V2A 技术能够对创意社区产生积极影响，我们正在收集来自顶尖创作者和电影制作人的各种观点和见解，并利用这些宝贵的反馈意见来指导我们正在进行的研究和开发工作。在考虑向更广泛的公众开放之前，我们的 V2A 技术将接受严格的安全评估和测试。"

DeepMind 的 V2A 技术对于档案管理员和处理历史片段的人来说是一种特别有用的工具。但是，按照这种思路进行的生成式人工智能也有可能颠覆电影和电视行业。要想确保生成式媒体工具不会消除工作岗位，或者说，消除整个职业，就需要一些强有力的劳动保护措施。