最新研究：嵌入大模型的AI扫地机器人多项任务翻车成功率仅40% - cnBeta.COM 移动版(WAP)

返回上一页首页 | cnbeta报时: 08:07:38

最新研究：嵌入大模型的AI扫地机器人多项任务翻车成功率仅40%

发布日期:2025-11-03 00:11:58 稿源：环球市场播报

AI实验室Andon Labs最近进行的一项评估显示，搭载顶级大模型的扫地机器人在简单家务任务中表现糟糕，成功率远低于人类。实验要求机器人执行“把黄油递给人”的多步骤指令，包括跨房间定位、区分包装、寻找移动位置的人类、完成交付并返回充电。

结果显示，Gemini 2.5 Pro 的成功率仅 40%，Claude Opus 4.1 为 37%，GPT-5 为 30%，明显落后于人类的表现。

研究指出，大模型在空间推理、环境理解、长期任务规划等方面依然存在明显短板。

研究团队强调，娱乐之外也有严肃隐患：某些机器人可被诱导泄露机密文件，部分机型无法识别楼梯风险而从高处跌落，暴露当前大型语言模型（LLM）与机器结合的安全漏洞。

在资本大举押注机器人时代的当下，这项研究提醒人们：强大的文本生成能力不代表能稳定、安全地在物理世界执行任务，AI机器人距离真正进入家庭仍有大量工程与安全问题需要解决。

查看网友评论返回完整版观看

最新资讯

加载中...

良品率持续提升英特尔或已解决18A工艺良品率问题

快递包装“瘦身令”实施第一周：胶带窄了、纸箱薄了、循环代替一次性

联想美国在售笔记本用上长江存储SSD

世界杯推动预测市场交易量飙升至历史新高

美国新泽西州报告19起“疑似高温相关”死亡病例

华为更新“韬定律”：细化了麒麟和昇腾演进路线

娃哈哈一茶饮检测出甜蜜素遭美国FDA进口警报

PlayStation用户取消PS Plus订阅集体抗议索尼

北大研发首款神经动力学芯片比英伟达GPU提速478倍

Xbox Series X|S单台或亏200美元次世代Helix无光驱

Xbox曾推出实体数字双版优势广告最终因故取消

今日最热

加载中...

前微软工程师重写记事本程序TinyRetroPad 文件大小仅2.5KB

法拉第未来辟谣“总部人去楼空”称将起诉博主后者回应

iPhone 18 Pro泄密影响恶劣印度政府机构调查塔塔

豆包、千问将下线智能体功能

iPhone 18 Pro/Pro Max国行电池揭晓 5391mAh史上最大

蒋方舟回应硕士论文造假，称清华教授举报材料含ChatGPT截图

Deepseek调价居然和电有关算电协同到底是怎么个“协同”？

格陵兰岛当局称美仍在施压但该岛“绝不出售”

北大研发首款神经动力学芯片比英伟达GPU提速478倍

全球极端热应激现象正不断加剧频率、强度、持续时间全线走高

特朗普设想“总统团聚”：奥巴马、拜登、布什，来白宫看场球赛吧

返回上一页首页 | cnbeta报时: 08:07:38

文字版标准版电脑端

© 2003-2026