返回上一页  首页 | cnbeta报时: 03:17:43
微软发布MAI-Transcribe-1 号称全球最精准的文字转写模型
发布日期:2026-04-03 00:16:46  稿源:cnBeta.COM

微软近日扩展其自研人工智能模型阵容,正式推出全新语音转文字模型 MAI-Transcribe-1,宣称在 25 种语言上的平均词错误率(WER)仅为 3.9%,是目前全球精度最高的转写模型。 在此前,微软已先后发布语音合成模型 MAI-Voice-1 和图像生成模型 MAI-Image-2,MAI-Transcribe-1 则成为该公司第三款对外公布的自研 MAI 系列模型。

根据微软介绍,MAI-Transcribe-1 在 FLEURS 行业标准基准测试中表现突出,在全球前 25 大语言中的 11 种“核心语言”上排名第一,包括英语、法语、德语、意大利语、西班牙语、印地语、葡萄牙语、捷克语、丹麦语、芬兰语、匈牙利语、荷兰语、波兰语、罗马尼亚语、瑞典语、日语、韩语、中文、阿拉伯语、印尼语、俄语、泰语、土耳其语和越南语等语言组合的测试场景。 在剩余 14 种语言上,该模型也全面压过 OpenAI 的 Whisper-large-v3,并在其中 11 种语言上击败了近期发布的Google Gemini 3.1 Flash 模型。

微软表示,MAI-Transcribe-1 能在所支持的全部 25 种语言中保持具有竞争力的高精度,适用于覆盖多语种的各类语音转写场景,包括通用语音内容、跨语言会议记录、媒体内容转写等。 不过,当前版本尚不支持实时转写、说话人分离(diarization)以及偏好词语加权(biasing)等高级功能,微软计划在后续迭代中补齐这些能力。

在性能方面,微软强调,新模型在批量转写任务上的速度大幅领先现有方案,其批处理转写速度约为当前 Microsoft Azure Fast 产品的 2.5 倍。 MAI-Transcribe-1 已通过 Microsoft Foundry 平台向企业和开发者开放,起始价格为每小时 0.36 美元,微软声称这是目前各大云服务提供商中“性价比最高”的语音转写模型之一。

除转写模型外,微软同日也宣布,将 MAI-Image-2 与 MAI-Voice-1 两款模型正式引入 Microsoft Foundry 平台。 其中,语音合成模型 MAI-Voice-1 的定价为每 100 万字符 22 美元,开发者还可通过 Azure Speech 的 Personal Voice 功能基于该模型创建自定义声音。 图像生成模型 MAI-Image-2 则采用按令牌计费模式,文本输入部分每 100 万令牌收费 5 美元,图像输出部分每 100 万令牌收费 33 美元。

随着 MAI-Transcribe-1 的发布以及 MAI-Voice-1、MAI-Image-2 的全面上架,微软正持续强化其在语音识别、语音合成和图像生成等多模态 AI 领域的自研能力,试图在减少对合作伙伴技术依赖的同时,通过 Foundry 平台向开发者提供一套更具性能和成本优势的模型组合。

查看网友评论   返回完整版观看

返回上一页  首页 | cnbeta报时: 03:17:43

文字版  标准版  电脑端

© 2003-2026