微软推出了全新 Phi-4-mini-flash-reasoning 小型语言模型,其主要优势在于它能够为边缘设备、移动应用和嵌入式系统等资源受限的环境带来高级推理能力。通过在设备上本地运行此类模型,可以避免向 OpenAI 和 Google 等公司托管的服务器发送请求,从而增强隐私,因为这些服务器会使用您的输入来训练新模型。
许多新设备都配备了神经处理单元,这使得以有效的方式在本地运行人工智能成为可能,因此微软的此类开发每天都变得越来越重要。
微软的这款全新 Phi 模型采用了名为 SambaY 的新架构,这是该模型的核心创新。SambaY 内部有一个称为门控内存单元 (GMU) 的组件,它能够在模型内部各部分之间高效共享信息,从而提高模型的效率。
凭借这些进步,该模型能够更快地生成答案并完成任务,即使输入非常长。该 Phi 模型还能够处理大量数据,并理解非常长的文本或对话。
该模型的主要优势在于其吞吐量比其他 Phi 模型高出 10 倍。这意味着该模型可以在任何给定的时间内完成更多工作。本质上,它可以在相同的时间内处理 10 倍以上的请求或生成 10 倍以上的文本,这对于实际应用来说是一个巨大的提升。延迟也降低了两到三倍。
随着 Phi-4-mini-flash-reasoning 速度和效率的提升,它降低了在更普通的硬件上本地运行 AI 的门槛。微软表示该模型将有助于需要实时反馈循环的自适应学习;作为移动学习辅助工具等设备上的推理代理;以及根据学习者的表现动态调整内容难度的交互式辅导系统。
微软该模型在数学和结构化推理方面尤其强大。这使得它对于需要可靠逻辑推理和快速响应时间的教育技术、轻量级模拟和自动化评估工具非常有价值。
全新 Phi-4-mini-flash-reasoning 现已在 Azure AI Foundry、NVIDIAAPI 目录和Hugging Face上线。