新闻资讯

开源体现世界模型让机器人学会“预演”未来

日期:2025-10-28 11:30 浏览:
目前,机器人的运动能力正在快速发展,有的可以轻松完成后空翻、奔跑等动作。然而,对于它来说,“理解”面前的一杯水为什么在装满水后会翻转,比完成一个后空翻还要困难。 近日,中国的一个科研团队开启了一个名为WOW(发音为“WOW”)的具身世界模型,它可以让机器人像人类一样发展出更好的想象力和执行能力。如何理解世界的具体模型?这如何让机器人变得更聪明? 记者袁嘉义总部:在北京汉诺德机器人创新中心,各种形态的机器人本体正在进行具身智能数据采集和动作模型训练。视频1:1中,“天宫”机器人自主模拟动作姿势,而该视频是机器人在做出动作之前“想象”的预览图像,可以用来指导其与现实世界的交互。这从想象实践到行动落实的“知行合一”能力,取决于科研团队自主研发的世界具身模型。 WOW体现世界模型项目负责人池小伟:当机器人推杯子的时候,我们人类本能地预测杯子会飞起来倒水,所以我会表演接杯子的动作。世界模型本质上是人工智能用来模拟人类思维和决策来思考和预测的模型。它需要生成符合物理定律的未来预测视频,帮助机器人真正改变现实世界中想象中的运动轨迹并付诸实施,从而将想象与现实联系起来。 WOW体现世界模型项目算法负责人贾培东:这是我们刚刚用手机拍的一张家里场景的照片。世界模型生成未来状态,世界动作翻译器使用逆动力学模式l 将这种状态转换成机器人所执行的具体操作。我们收集了数百万级真实交互的具体智能数据,使得真实世界模型能够在真实的、非常普遍的情况下运行。 WOW体现世界模型由北京汉诺德机器人创新中心联合北京大学、香港科技大学等团队合作开发,并向buonworld的研究开发者开放。该世界模型可适配人形、人形、机械臂等各类机器人,覆盖家庭、超市、工业、物流等多种场景。还可以在计算机上高精度模拟避水等极端情况,为实机训练中难以实现的数据采集提供重要补充。 拥有独立改变的能力,世界模式“自学” 体现的世界模型就像一个虚拟的机器人可以做任何他们想做的事情的世界。为了正确有效地训练机器人,这个虚拟世界需要合理充分并与现实世界的操作逻辑保持一致。由此,由北京仿人机器人创新中心、北京大学、香港科技大学组建的WOW具身世界模型研发团队,创新性地构建了全球首个具有自主进化能力的多模态世界系统,让世界模型能够“自学”。 Wow 具身世界模型研发团队 该团队主导构建了具身世界模型与视觉语言模型联动的多模态世界模型系统。具身世界模型负责物理推演和动态预测,视觉语言模型负责多模态理解、长期任务规划和逻辑自我修正。两者共同构成了一个具体化的智能学习“思考、证明、改变、再思考”。机器人不仅可以在头脑中“思考世界”,还可以在现实环境中通过“试错学习”发展因果理解,自主进化出类似于人类思维的“物理直觉”。 哇具体世界模型项目总监秦志远:如果给一个机器人一个苹果,可以想象这个苹果能做什么。它可以把苹果放在水槽里清洗,也可以想到把苹果放在微波炉里加热,甚至可以把苹果扔在地上。 VLM(视觉语言模型)可以推理哪条路径更好,世界模型期望增加其宽度。但VLM(视觉语言模型)希望增加它的深度,让它做出更好的决策。通过不断地将VLM(视觉语言模型)反馈给世界模型,将世界模型反馈给VLM(视觉语言模型),生成一个像桌上打网球、传球等游戏。如此一来,它的能力就会越来越好。 除了多模态世界模型系统的内循环机制外,北京仿人机器人创新中心还同步发布了全球首个具身世界模型综合基准,构建了构成世界模型感知理解、预测推理、决策规划、通用执行四大能力的多维度评价体系,为训练和初始化世界模型提供了外部支持。 WOW体现世界模型项目总监秦志远:世界模型不仅仅是为了生成视频,更重要的是我们可以让它与现实世界进行交互,从推理的思维到在现实世界中实施行动形成反馈闭环。它可以让世界模型变得更好,在真实场景中不断自我进化、自我完善。 。
首页
电话
短信
联系