微软发布MAI-Transcribe-1 号称全球最精准的文字转写模型

微软近日扩展其自研人工智能模型阵容，正式推出全新语音转文字模型 MAI-Transcribe-1，宣称在 25 种语言上的平均词错误率（WER）仅为 3.9%，是目前全球精度最高的转写模型。在此前，微软已先后发布语音合成模型 MAI-Voice-1 和图像生成模型 MAI-Image-2，MAI-Transcribe-1 则成为该公司第三款对外公布的自研 MAI 系列模型。

根据微软介绍，MAI-Transcribe-1 在 FLEURS 行业标准基准测试中表现突出，在全球前 25 大语言中的 11 种“核心语言”上排名第一，包括英语、法语、德语、意大利语、西班牙语、印地语、葡萄牙语、捷克语、丹麦语、芬兰语、匈牙利语、荷兰语、波兰语、罗马尼亚语、瑞典语、日语、韩语、中文、阿拉伯语、印尼语、俄语、泰语、土耳其语和越南语等语言组合的测试场景。在剩余 14 种语言上，该模型也全面压过 OpenAI 的 Whisper-large-v3，并在其中 11 种语言上击败了近期发布的Google Gemini 3.1 Flash 模型。

微软表示，MAI-Transcribe-1 能在所支持的全部 25 种语言中保持具有竞争力的高精度，适用于覆盖多语种的各类语音转写场景，包括通用语音内容、跨语言会议记录、媒体内容转写等。不过，当前版本尚不支持实时转写、说话人分离（diarization）以及偏好词语加权（biasing）等高级功能，微软计划在后续迭代中补齐这些能力。

在性能方面，微软强调，新模型在批量转写任务上的速度大幅领先现有方案，其批处理转写速度约为当前 Microsoft Azure Fast 产品的 2.5 倍。 MAI-Transcribe-1 已通过 Microsoft Foundry 平台向企业和开发者开放，起始价格为每小时 0.36 美元，微软声称这是目前各大云服务提供商中“性价比最高”的语音转写模型之一。

除转写模型外，微软同日也宣布，将 MAI-Image-2 与 MAI-Voice-1 两款模型正式引入 Microsoft Foundry 平台。其中，语音合成模型 MAI-Voice-1 的定价为每 100 万字符 22 美元，开发者还可通过 Azure Speech 的 Personal Voice 功能基于该模型创建自定义声音。图像生成模型 MAI-Image-2 则采用按令牌计费模式，文本输入部分每 100 万令牌收费 5 美元，图像输出部分每 100 万令牌收费 33 美元。

随着 MAI-Transcribe-1 的发布以及 MAI-Voice-1、MAI-Image-2 的全面上架，微软正持续强化其在语音识别、语音合成和图像生成等多模态 AI 领域的自研能力，试图在减少对合作伙伴技术依赖的同时，通过 Foundry 平台向开发者提供一套更具性能和成本优势的模型组合。