Stability AI 发布用于生成声音和歌曲的开放式AI模型

人工智能艺术生成器 Stable Diffusion 背后的初创公司 Stability AI 发布了一个用于生成声音和歌曲的开放式人工智能模型，并声称该模型完全是在免版税录音基础上训练出来的。该模型名为"稳定的音频开放"，它采用文本描述（例如，"在经过处理的录音室中演奏的摇滚节拍，在原声套件上打鼓"），并输出长度不超过 47 秒的录音。

该模型使用来自免费音乐库 FreeSound 和免费音乐档案馆的约 486,000 个样本进行训练。

Screenshot_2024-06-05_at_1.36.18a_¯PM-transformed.png

Stability AI 公司称，该模型可用于为视频、电影和电视节目创建鼓点、乐器旋律、环境噪音和"制作元素"，也可用于"编辑"现有歌曲或将一首歌的风格（如流畅爵士乐）应用到另一首歌中。

Stability AI公司在其公司博客上发表的一篇文章中写道："此次开源发布的一个主要好处是，用户可以根据自己的自定义音频数据对模型进行微调。例如，鼓手可以在自己的鼓声录音样本上进行微调，生成新的节拍。"

不过，Stable Audio Open 也有其局限性。它不能生成完整的歌曲、旋律或人声，至少不能生成好的歌曲、旋律或人声。Stability AI 表示，它并没有为此进行优化，并建议希望获得这些功能的用户选择该公司的高级 Stable Audio 服务。

Stable Audio Open 也不能用于商业用途，其服务条款禁止这样做。此外，它在不同音乐风格和文化或英语以外的语言描述中的表现也不尽相同，Stability AI 将这些偏差归咎于训练数据。

"数据源可能缺乏多样性，所有文化在数据集中都不具有同等代表性，"Stability AI 公司在对模型的描述中写道。"模型生成的样本将反映训练数据的偏差"。

稳定人工智能公司（Stability AI）长期以来一直在努力扭转业务颓势，最近，该公司负责生成音频的副总裁埃德-牛顿-雷克斯（Ed Newton-Rex）因不同意该公司关于在受版权保护的作品上训练生成人工智能模型构成"合理使用"的立场而辞职，从而引发争议。Stable Audio Open 似乎试图扭转这种说法，同时不着痕迹地宣传 Stability AI 的付费产品。

随着包括 Stability 音乐生成器在内的音乐生成器越来越受欢迎，版权--以及一些生成器创建者可能滥用版权的方式--正成为人们关注的焦点。

5 月，代表比利-乔尔（Billy Joel）、Doja Cat 和 Lil Nas X 等艺术家的索尼音乐公司致函700 家人工智能公司，警告不要"未经授权使用"其内容来训练音频生成器。今年 3 月，美国田纳西州签署了第一部旨在遏制人工智能在音乐领域滥用的法律。