智元机器人发布机器人世界模型开源平台可完成做三明治、倒茶等任务

0 凤凰网科技 2025-08-14 14:33:50

摘要：

8月14日，智元机器人正式发布行业首个机器人世界模型开源平台——Genie Envisioner（简称GE）。该平台突破传统“数据—训练— 评估”割裂的流水线模式，宣称首次将未来帧预测、策略学习与仿真评估整合进以视频生成为核心的闭环架构，使机器人能在同一世界模型中完成从“看”到“想”再到“动”的端到端推理与执行。

据介绍，GE平台通过构建统一的视频生成世界模型，将数据收集、模型训练、策略评估等分散环节集成到闭环系统中。其核心组件GE-Base经超百万条数据训练，可精准解析环境空间布局与动作意图；GE-Act动作解码器则实现从“看懂”到“会做”的关键转化；GE-Sim则将GE-Base的生成能力扩展为动作条件的神经仿真器，通过层次化动作条件机制实现精确的视觉预测。三大组件紧密协作，构成完整的视觉中心机器人学习平台。

依托约3000小时的真实机器人操控视频数据，GE建立了从语言指令到视觉空间的直接映射，完整保留了机器人与环境交互的时空信息。

值得一提的是，由智元机器人主办的智启具身论坛近日在2025世界人工智能大会（WAIC）举行。论坛上，智元机器人合伙人、具身业务部总裁姚卯青以飞机架构为喻，形象解析了GE平台的核心逻辑：“机身”GE-Base经过海量机器人真机数据训练，具备长程、多视角的视频生成能力；两侧的“双翼”则分别指向World Action Model和Action-conditioned World Model。