Google宣布推出最新音频模型 Gemini 3.5 Live Translate,将在 Google AI Studio、Google Translate 和 Google Meet 等产品中提供接近实时的语音同传能力,支持 70 多种语言的语音到语音翻译。该模型可自动识别多语言输入,并在保持语音自然流畅的同时,将源语言内容即时翻译成目标语言语音,尽量还原说话人的语调、节奏和音高。

与传统需要“说完一句再翻译一句”的轮流式方案不同,Gemini 3.5 Live Translate 会持续生成译文语音,在“等待更多上下文以提升质量”和“尽快输出结果保持同步”之间进行平衡,使译音始终只比讲者滞后几秒,并尽可能减少尴尬停顿。
Google介绍称,其机器翻译探索起步于 20 年前的早期机器学习实验,经过多年发展,如今Google旗下多种产品每月已经为数十亿用户翻译超万亿字词。Gemini 3.5 Live Translate 被视为在这一长期布局上的新一步,将“语言科技”进一步向“实时跨语沟通体验”延伸。
Gemini 3.5 Live Translate 将率先在多条产品线中推开。对于开发者,该模型已通过 Gemini Live API 和 Google AI Studio 面向公众预览开放,便于在各类应用和服务中集成语音同传能力。对于企业用户,Google将在本月起于 Google Meet 中开启私测,帮助企业视频会议实现多语言实时语音翻译。对于普通用户,Gemini 3.5 Live Translate 将通过 Android 和 iOS 版 Google 翻译应用向全球逐步推送。
在具体能力方面,Gemini 3.5 Live Translate 可以在语音流输入的同时直接进行处理,不需要用户事先手动配置语言选项,可以自动识别多种语言,并在嘈杂、不可预期的声学环境中保持相对稳定的表现。Google表示,借助这一模型,开发者可更轻松地为多语种电话、在线课程、多语直播和活动解说等场景构建实时语音翻译或口译服务。
Google还公布了多家合作伙伴围绕 Gemini Live API 的平台级集成方案,包括 Agora、Fishjam、LiveKit、Pipecat 以及 Vision Agents 等开发平台,这些平台负责处理底层实时音视频流基础设施,让开发者可以更多将精力集中在产品体验设计上。此外,出行平台 Grab 已率先测试该模型,用于在乘客与司机接送点电话沟通中提供近乎实时的多语种语音翻译服务。Grab 用户每月通过平台拨打的语音通话量超过 1000 万次,测试反馈重点肯定了模型在多语言自动检测、翻译质量和低延迟表现上的综合能力。
除 Grab 外,CJ ENM、LiveKit 等公司也在内部测试中给出正面评价,认为 Gemini 3.5 Live Translate 在翻译准确度、响应速度和多语种支持等方面具有明显优势。
在企业协作场景中,Google Meet 的语音翻译功能将很快全面接入 Gemini 3.5 Live Translate。升级后,Google Meet 的语音翻译将从此前仅支持 5 种语言扩展到 70 多种语言,并可在单场会议中实现 2000 多种语言组合之间的互译,而不再局限于“仅在英语与其他语言之间”这种单一枢纽模式。同时,Google Meet 的界面设计也将更新,使用户能更快速地开启语音翻译功能。该升级目前将率先面向部分企业版 Google Workspace 客户以私测形式推出,并计划在今年晚些时候扩大覆盖范围。
在移动端应用层面,Gemini 3.5 Live Translate 也将通过 Google 翻译应用在全球范围内陆续上线,覆盖 Android 和 iOS 用户。在使用“实时翻译”功能时,用户只需连接任意一副耳机,即可获得更自然、更贴近说话人口吻的跨语言语音翻译体验,支持 70 多种语言。
对于 Android 用户,Google还引入了全新的“听筒聆听模式”。在这一模式下,用户可以像接打普通电话一样,将手机贴近耳朵,通过手机听筒直接收听译文语音,无需外接耳机。这种方式适用于用户希望低调、私密地获取翻译结果,但当下又不方便佩戴耳机的场景,例如参观讲解、公共场合对话等。
在安全与可信方面,Google强调,所有由 Gemini 系列模型生成的音频内容都会通过 SynthID 技术进行数字水印处理。该水印以不可感知的方式嵌入音频输出之中,便于在后续检测中识别出 AI 生成内容,从而在一定程度上帮助防范信息误导和滥用风险。关于 Gemini 3.5 Audio 等模型在安全和责任方面的具体设计,Google还提供了详细的模型卡文档供外界查阅。