Mistral Small 3模型发布比OpenAI和Google类似产品更快更好

欧洲领先的人工智能公司之一 Mistral AI 推出了一款名为 Mistral Small 3 的新模型。这是一个包含 240 亿参数的模型，但与 Llama 3.3 70B 和 Qwen 32B 等大型模型相当（至少在 MMLU-Pro 基准测试中如此）。它不仅运行速度与 Llama 3.3 70B 不相上下，而且速度更快。

ChatGPT 上最常用的模型是 GPT-4o mini，它是用户用完 GPT-4o 请求后的备用模型。 Mistral Small 3 的性能比这个 OpenAI 模型更好，据说延迟也更低。

Mistral AI 介绍说："我们在 Apache 2.0 下发布了预训练和指令调整的检查点。检查点可以作为加速进展的强大基础。需要注意的是 Mistral Small 3 既未使用 RL 也未使用合成数据进行训练，因此与 Deepseek R1（一项伟大而互补的开源技术！）等模型相比，它在模型制作流程中处于较早阶段。它可以作为建立累积推理能力的基础模型。我们期待看到开源社区如何采用和定制它。"

作为一个偏小型的模型，如果你的电脑配置较高，也有可能在自己的电脑上本地运行它。 Mistral AI 表示，它可以在单块NVIDIA RTX 4090 显卡或配备 32GB 内存的 MacBook 上运行。

虽然该机型在 MMLU-Pro 基准测试中的表现优于上述其他机型，但它并不总是人类评估人员的首选。 Mistral 在一组超过 1k 的专有编码和通用提示中将其模型与其他模型进行了比较。研究发现，与 Gemma-2 27B 和 Qwen-32B 相比，Mistral Small 3 是首选方案，但与 Llama 3.3 70B 和 GPT-4o mini 相比，Mistral Small 3 的首选度较低。

Mistral Small 3 现以 mistral-small-latest 或 mistral-small-2501 的形式在平台上提供。