Meta推出用于跨语言实时交流的"无缝"翻译AI模型Seamless

Meta 人工智能研究人员于本周四宣布，他们开发了一套名为"无缝交流"（Seamless Communication）的新人工智能模型，旨在实现更自然、更真实的跨语言交流--从根本上实现"通用语音翻译器"（Universal Speech Translator）的概念。这些模型本周与研究论文和相关数据一起公开发布。

nuneybits_Abstract_painting_of_two_people_with_speech_bubbles_c_b2457dfd-af1e-4d7f-b81d-70bef4a9307f.webp

旗舰模型被称为 Seamless，它将其他三种模型（SeamlessExpressive、SeamlessStreaming 和 SeamlessM4T v2）的功能合并为一个统一的系统。据研究论文称，Seamless 是"第一个公开可用的系统，它能实时解锁富有表现力的跨语言通信"。

Seamless 翻译器代表了利用人工智能进行跨博客交流的一个新领域。它结合了三种复杂的神经网络模型，能够在 100 多种口语和书面语言之间实现实时翻译，同时保留说话者的声音风格、情感和韵律。

SeamlessExpressive 专注于在语言间翻译时保留说话者的声音风格和情感细微差别：

https://seamless.metademolab.com/expressive/

正如论文中所描述的，"翻译应该捕捉人类表达的细微差别。虽然现有的翻译工具能够熟练地捕捉对话中的内容，但它们的输出通常依赖于单调的机器人文本到语音系统"。

SeamlessStreaming 可实现近乎实时的翻译，延迟时间仅约两秒钟：

https://ai.meta.com/resources/models-and-libraries/seamless-communication-models/#seamlessstreaming

研究人员称，这是"首个大规模多语言模型"，可在近 100 种口语和书面语言中提供如此快的翻译速度。

第三个模型 SeamlessM4T v2 是其他两个模型的基础：

https://ai.meta.com/resources/models-and-libraries/seamless-communication-models/#seamlessm4t

它是去年发布的原始 SeamlessM4T 模型的升级版。论文称，新架构"提高了文本和语音输出之间的一致性"。

研究人员写道："总之，Seamless 让我们看到了将通用语音翻译器从科幻概念转变为现实世界技术所需的关键技术基础。"

改变全球通信的潜力

从使用智能眼镜进行实时多语种对话，到自动配音视频和播客，这些模型的功能可以带来全新的语音通信体验。研究人员认为，它还能帮助移民和其他在沟通方面有困难的人打破语言障碍。

论文指出："通过公开发布我们的研究成果，我们希望研究人员和开发人员能够扩大我们所做贡献的影响力，在这个相互联系和相互依存日益紧密的世界中，建立起旨在弥合多语言联系的技术。"

不过，研究人员也承认，这项技术也可能被滥用于语音钓鱼诈骗、深度伪造和其他有害应用。为了促进安全和负责任地使用模型，他们采取了多项措施，包括音频水印和减少幻觉毒性输出的新技术。

图片.png

在"Hugging Face"上公开发布的模型

根据 Meta 对开放研究与合作的承诺，无缝通信模型已在Hugging Face和Github.上公开发布。

该模型集包括 Seamless、SeamlessExpressive、SeamlessStreaming 和 SeamlessM4T v2 模型以及相关元数据。

Meta 希望通过免费提供这些最先进的自然语言处理模型，让其他研究人员和开发人员能够在此基础上进行开发和扩展，帮助人们跨越语言和文化的障碍。此次发布彰显了 Meta 在开源人工智能领域的领先地位，并为研究界提供了宝贵的新资源。

研究人员总结说："总的来说，Seamless 可能带来的多维体验会使机器辅助跨语言交流的方式发生质的变化。"