Mistral 发布其首个开源 AI 音频模型 Voxtral

摘要:

随着人工智能系统功能日益强大,语音正迅速成为我们与机器沟通的默认方式。法国人工智能初创公司Mistral凭借其首个开放模型加入音频领域,旨在以开放的替代方案挑战封闭式企业系统的主导地位。  

周二,Mistral 宣布推出 Voxtral,这是其首个针对企业的音频模型系列。该公司将 Voxtral 定位为第一个能够部署“真正可用的语音智能生产”的开放模型。

开发人员不再需要在廉价、开放但转录不准确且不能真正理解所说的内容的系统和功能良好但封闭的系统之间做出选择,而后者会让开发人员承担更高的费用并对部署控制更少。 

对于企业来说,这意味着 Voxtral 提供了一种经济实惠的替代方案,该公司声称其价格“不到同类解决方案的一半”。

图片来源: Mistral

Mistral 表示,Voxtral 最多可以转录 30 分钟的音频。由于其 LLM 主干平台Mistral Small 3.1,它可以理解最多 40 分钟的音频,允许用户针对音频内容提问、生成摘要,或将语音命令转换为实时操作,例如调用 API 或运行函数。Voxtral 还支持多语言,能够转录和理解英语、西班牙语、法语、葡萄牙语、印地语、德语、荷兰语和意大利语等多种语言。

该公司提供了两种“语音理解模型”。第一种是 Voxtral Small,它拥有 240 亿个参数,可用于生产规模部署,可与 ElevenLabs Scribe、GPT-4o-mini 和 Gemini 2.5 Flash 竞争。 

第二个模型是 Voxtral Mini,它拥有 30 亿个参数,可用于本地和边缘部署。此外,还有一个超便宜、精简、快速的 API 版本,名为 Voxtral Mini Transcribe,该版本针对纯转录用例进行了优化,并承诺以不到一半的价格超越 OpenAI Whisper。

用户可以通过在 Hugging Face 上下载 API 或在 Mistral 的聊天机器人 Le Chat 中测试模型来免费试用 Voxtral。据该公司称,将 API 集成到应用程序中的起价为每分钟 0.001 美元。 

此次发布的一个月前,Mistral 宣布推出 Magistral,这是其首个推理模型系列,可以逐步解决问题,提高可靠性。 

我们在FebBox(https://www.febbox.com/cnbeta) 开通了新的频道,更好阅读体验,更及时更新提醒,欢迎前来阅览和打赏。
查看评论
created by ceallan