智元机器人发布机器人世界模型开源平台 可完成做三明治、倒茶等任务

摘要:

8月14日,智元机器人正式发布行业首个机器人世界模型开源平台——Genie Envisioner(简称GE)。该平台突破传统“数据—训练— 评估”割裂的流水线模式,宣称首次将未来帧预测、策略学习与仿真评估整合进以视频生成为核心的闭环架构,使机器人能在同一世界模型中完成从“看”到“想”再到“动”的端到端推理与执行。


据介绍,GE平台通过构建统一的视频生成世界模型,将数据收集、模型训练、策略评估等分散环节集成到闭环系统中。其核心组件GE-Base经超百万条数据训练,可精准解析环境空间布局与动作意图;GE-Act动作解码器则实现从“看懂”到“会做”的关键转化;GE-Sim则将GE-Base的生成能力扩展为动作条件的神经仿真器,通过层次化动作条件机制实现精确的视觉预测。三大组件紧密协作,构成完整的视觉中心机器人学习平台。

依托约3000小时的真实机器人操控视频数据,GE建立了从语言指令到视觉空间的直接映射,完整保留了机器人与环境交互的时空信息。


值得一提的是,由智元机器人主办的智启具身论坛近日在2025世界人工智能大会(WAIC)举行。论坛上,智元机器人合伙人、具身业务部总裁姚卯青以飞机架构为喻,形象解析了GE平台的核心逻辑:“机身”GE-Base经过海量机器人真机数据训练,具备长程、多视角的视频生成能力;两侧的“双翼”则分别指向World Action Model和Action-conditioned World Model。


在真实测试中,搭载GE-Act的机器人已能完成“做三明治”“倒茶”“擦桌面”等多项任务。

我们在FebBox(https://www.febbox.com/cnbeta) 开通了新的频道,更好阅读体验,更及时更新提醒,欢迎前来阅览和打赏。
查看评论
created by ceallan