返回上一页  首页 | cnbeta报时: 04:22:43
微软发布Fara-7B 能直接在PC上运行 性能可与GPT-4o媲美
发布日期:2025-11-25 04:00:01  稿源:cnBeta.COM

11月24日,微软宣布推出7B参数AI模型Fara-7B,定位为“计算机使用代理(Computer Use Agent, CUA)”,可直接在用户本地设备上运行复杂任务。Fara-7B不仅实现了同等规模下的最佳性能,还使AI代理摆脱了对庞大云端模型的依赖,可在资源有限的系统上实现低延时与更强的数据隐私保障。

据介绍,Fara-7B的架构直击企业用户最关注的数据安全需求。由于模型足够精简,可以在本地运行,用户可在敏感工作流程(如内部账户管理或涉密数据处理)中实现自动化,相关信息始终不会离开本地设备,极大提高了隐私和合规性。

Fara-7B通过“看屏操作”进行网页交互。它使用截图,像人类一样通过“视觉感知”页面布局,预测坐标完成点击、输入、滚动等动作,并不依赖于浏览器的底层无障碍树结构。这种仅靠像素级视觉信息“操作”的方法,使其可以在代码结构混乱、页面难以解析的网站上正常工作。

微软研究院高级产品经理Yash Lara表示,完全在本地处理视觉输入,实现了真正的“像素主权”,让自动化和数据推理过程均不出本地,从而满足医疗、金融等强监管行业的合规需求。

在WebVoyager等标准测试中,Fara-7B的任务成功率为73.5%,优于资源耗费更大的GPT-4o(65.1%)和UI-TARS-1.5-7B(66.4%)等模型。同时,Fara-7B完成任务平均只需16步,而UI-TARS-1.5-7B为41步,效率明显提升。此外,Fara-7B在准确率与成本之间表现出最佳性价比。

不过,微软也强调该模型仍存在通用AI系统的问题,如幻觉、复杂指令处理失误等。为降低风险,Fara-7B引入了“关键点”机制:在涉及用户个人数据或不可逆动作(如发送邮件、金融操作)前,模型会主动暂停并请求用户确认。微软设计了配套的人机交互UI(Magentic-UI),让用户及时干预、避免过度打扰。

Fara-7B的开发采用“知识蒸馏”方式,将多智能体系统的大量成功案例(14.5万个由Magentic-One生成的自动导航轨迹)压缩转化到单一模型中。其底座模型为Qwen2.5-VL-7B,具备最长128,000词的上下文窗口和强大的文本与视觉元素对齐能力。整个过程以监督微调为主,让模型“模仿”人类专家的示范。

对于未来,微软强调不会一味增大模型体量,而是聚焦“让小模型更聪明更安全”。后续计划将合成环境中的强化学习机制(RL)引入训练,让Fara-7B在沙箱环境中自主学习。

目前,Fara-7B已通过MIT协议在Hugging Face及微软Foundry平台开放发布,允许商用,但微软提醒模型尚未达到生产级别,主要适合原型开发和测试。

我们在FebBox(https://www.febbox.com/cnbeta) 开通了新的频道,更好阅读体验,更及时更新提醒,欢迎前来阅览和打赏。
查看网友评论   返回完整版观看

返回上一页  首页 | cnbeta报时: 04:22:43

文字版  标准版  电脑端

© 2003-2025