IT之家 8 月 15 日消息,智元機器人昨天通過公眾號宣布,推出行業首個面向真實世界機器人操控的統一世界模型平臺 --- Genie Envisioner(GE)。
根據官方介紹,不同于傳統“數據 — 訓練 — 評估”割裂的流水線模式,GE 將未來幀預測、策略學習與仿真評估首次整合進以視頻生成為核心的閉環架構,使機器人在同一世界模型中完成從“看”到“想”再到“動”的端到端推理與執行。基于 3000 小時真機數據,GE-Act 不僅在跨平臺泛化和長時序任務執行上顯著超越現有 SOTA,更為具身智能打開了從視覺理解到動作執行的全新技術路徑。
IT之家附開源有關鏈接:
Project page:https://genie-envisioner.github.io/
Arxiv:https://arxiv.org/abs/2508.05635
Github:https://github.com/AgibotTech/Genie-Envisioner
GE 平臺通過構建統一的視頻生成世界模型,將這些分散的環節集成到一個閉環系統中。基于約 3000 小時的真實機器人操控視頻數據,GE 建立了從語言指令到視覺空間的直接映射,保留了機器人與環境交互的完整時空信息。
基于強大的視覺空間預訓練,GE-Act 僅需極少量數據即可實現跨平臺遷移。在 Agilex Cobot Magic 和 Dual Franka 等全新機器人平臺上,GE-Act 僅使用 1 小時(約 250 個演示)的遙操作數據就實現了高質量的任務執行。
智元方面表示,團隊將開源全部代碼、預訓練模型和評測工具。GE 通過視覺中心的世界建模,為機器人學習開辟了新的技術路徑。GE 的發布,標志著機器人從被動執行向主動‘想象 — 驗證 — 行動’的轉變。未來,將擴展更多傳感器模態,支持全身移動與人機協作,持續推動智能制造與服務機器人的落地應用。