懂能帝首页 懂能帝首页
|
首页能源头条推荐资讯详情

“事件级”世界模型WALL-WM:机器人的大脑,终于学会“抓重点”了

2026-06-01 17:50
发布者:新经济资讯
来源:新经济资讯
标签:机器人Wall-WM
2
0
5
分享

作者|苏涵

你每天早上过马路,需要同时算清楚对面那辆车的车速、距离和你走完斑马线所需的 3.5 秒吗?

当然不需要。你只会快速看一眼,心里默默判断一个关键问题:「车会不会撞到我?」然后决定是走还是停。

整个过程不到一秒,消耗的能量微乎其微。但今天的机器人,几乎都在做前一种事。

它们被设定为按固定频率来预测世界的下一秒,每秒 30 次、50 次,哪怕明知道接下来的 0.5 秒什么都没发生,它也必须算完。

这就像你每天早上出门前,都要完整计算一遍过马路的 300 个步骤才敢迈出第一步。

累不累?当然累。

关键是,大部分计算都是白费的。这就是当前机器人「时灵时不灵」的根本原因之一:

它们太听话了,听话到对每一帧、每一秒都平均用力,从不问自己「什么事值得想,什么事不用想」。

5 月 29 日,自变量机器人推出首个具备「事件级预测能力」的世界模型:Wall-WM。

它的核心就是跳出「按时间均匀采样」的旧范式,模型不再机械地预测每一帧,而是判断哪些瞬间真正重要。

换句话说,Wall-WM 让机器人终于学会了「抓重点」。

然而,这个世界模型的推出,到底意味着什么?

为什么「抓重点」这种人类与生俱来的能力,放到机器人身上就成了底层技术革新?要回答这些问题,得先从机器人「大脑」的工作方式说起。

从机械模仿到真正理解,Wall-WM 是如何做到的?

目前行业主流的机器人「大脑」叫 VLA(视觉-语言-动作)。听名字就知道,一个负责「看」,一个负责「听懂人话」,一个负责「动手」。

听起来挺合理,但问题在于,这三个模块是串联的:视觉模块把看到的东西传给语言模块,语言模块理解后再传给动作模块。每传一次,信息就打一次折扣。

这就是为什么很多机器人看起来很「笨」。不是因为它没看到,而是因为它看到的信息在传到「动手」模块时,已经丢失了一大半。那有没有什么办法可以改进?

自变量机器人给出的答案是,通过 Wall-WM 这一世界模型,先换掉它思考的时间单位。

传统模型按固定频率预测未来,每秒 30 次、50 次,每一帧都用力。哪怕接下来的 0.5 秒什么都没发生,它也必须算完,这叫「帧级预测」。

但自变量机器人换了一套逻辑:以「事件」为单位来预测。

什么是事件?伸手、抓取、提起、移动、放置,这些在一段时间内连贯、有明确意义的动作片段,就是事件。

模型只在世界发生「重要变化」时才重新调整预测。

比如「杯子开始滑落」是一个事件,「手碰到了杯子」是另一个事件。其他时间,它不需要每秒思考 30 次。

更重要的是,它学到的不是「第 10-20 帧我要执行指令 X」,而是在此事件下,物理世界将如何演化、我应当如何执行。

但这里有一个隐藏的难题:

如果让机器人在学新动作的同时,把原来好不容易学会的视觉能力给忘掉了,怎么办?Wall-WM 在设计上专门考虑了这个「学新不忘旧」的问题。

Wall-WM 的设计很巧妙。它的视觉模块和动作模块不是平起平坐的,而是单向耦合:

动作模块只能读取视觉模块的信息,但不能反向干扰它。就像你看书的时候可以记笔记,但记笔记不会把书上的字改掉。

这样一来,在大规模训练时,模型既能保留原有的视觉理解能力,又能让动作能力持续增长。工程师也不需要提前「猜」动作该怎么编码,因为模型自己会学出来。

但解决了「学新不忘旧」,Wall-WM 还要解决另一个老问题:机器人身上有好几个摄像头,它怎么知道它们拍到的其实是同一个东西?

大多数机器人身上不止一个摄像头,比如头顶一个、左手腕一个、右手腕一个。问题是,它怎么知道这三个摄像头拍到的画面是对应同一个物体的?

传统做法是让模型自己去学对应关系。

但效果往往不好:模型会偷懒,把跨视角注意力当成一个通用特征混合器,而不是真正去理解空间几何。

因此,Wall-WM 引入了两个机制:视锥掩码和管状掩码。

视锥掩码从物理层面告诉模型:这两个摄像头的画面在空间上根本不可能对应,别费劲去学它们的关系。

管状掩码则反过来「强迫」模型去学那些真正应该对应的区域,它会故意遮挡一个摄像头里的某块区域,逼模型从其他摄像头找到相同的内容。

一个通俗的理解:普通 AI 看东西是「二维拼图」,每一张画面都是独立的平面。

而 Wall-WM 看东西是「三维积木」,它知道不同角度的画面拼起来是一个立体的物体。哪怕某个角度被遮挡了,它也能「脑补」出物体的真实位置。

看懂空间、理解事件,Wall-WM 在「想什么」上已经比传统模型前进了一大步。但机器人光会想还不够,它还得想得快,毕竟真实世界不等人。

机器人在做复杂任务时,往往需要「思维链」(CoT),也就是在脑子里先推理一遍再行动。

但传统 CoT 是一步一步推理的,想完第一步,才能想第二步,非常慢。

Wall-WM 的做法是:

底层只跑一次,高层像阶梯一样并行展开。而且最关键的是,它产出的 CoT 仍然是离散可读的文本,你随时可以打开看模型是怎么推理的,可解释性和实时性第一次不用二选一。

Wall-WM 的发布,对行业和开发者来说意味着什么?

从理解事件到看懂空间,再到快速决策,Wall-WM 在底层已经把「机械式」的思考方式改写了一遍。

不过,Wall-WM 还有一个讨巧的设计:同一套「大脑」,可以灵活适配不同场景。

它有两种模式。一种叫「事件模式」,适合已经有上层规划器的场景,比如你给机器人一个「把杯子拿过来」的任务,它自己就能拆成伸手、抓取、提起、移动、放置等一串事件,一次输出一个完整的动作单元,非常贴合事件边界。

另一种叫「统一模式」,适合没有外部规划器、需要端到端实时控制的场景。模型自己边推理边执行,保持固定的控制频率。

这两种模式可以按需切换,不用重新训练。

轻量级的家庭小机器人可以跑在低算力模式,工业机械臂可以切换到大算力模式。同一套代码思路,小到扫地机器人,大到工厂产线,都能适配。

对于开发者来说,再也不用为不同设备维护多套模型,开发成本也在大幅降低。

目前,具身智能行业有一个共识正在形成:

世界模型,将成为机器人领域的下一个基础设施,但大多数都还停留在论文或者内部系统阶段。

而自变量机器人是把「事件级预测能力」的世界模型完整展示出来的。

它不是放出一个 demo 或者一个 API,而是通过技术报告详细公开了整套思路、模型设计、训练方案和实验数据。

而实验结果,也验证了「事件级预测」这条路线的有效性。

在真机 Core15 L1 基准测试中,Wall-WM 的平均任务完成分数明显领先 π0.5 与 DreamZero 等同类模型。

在基础任务、推理任务、灵巧操作以及泛化场景下,均展现出了更强的完成能力,也是目前抽象指令设定下完成度最高的 L1 模型之一。

这意味着,Wall-WM 提升的已经不只是机械执行能力,而是机器人对于复杂任务与抽象目标的理解能力。

与此同时,在具身视频生成(Embodied Video Generation)测试中,相比 Wan2.1、Wan2.2 等传统视频生成模型,Wall-WM 在 Motion Quality(动作质量)、Semantic Consistency(语义一致性)以及 Physical Plausibility(物理合理性)等多个具身相关维度上,均实现了明显领先。

这背后,本质上就是因为它不再只是逐帧生成画面,而是在预测「事件」如何在真实物理世界中演化。

此外,在 3D Awareness(CO3Dv2)测试中,Wall-WM 在 Point Error 与 Depth Error 两项空间误差指标上,也优于 WAN2.1-14B、Open-Sora 2.0、V-JEPA、DINOv2 等模型。

但相比性能提升,更重要的是,它改变了机器人理解世界的方式。

过去的机器人,对每一帧都在用力;而现在,它开始学会像人一样,知道什么值得思考,什么不值得浪费算力。

而 Wall-WM 真正的价值,或许并不在于它是又一个跑分更高的 VLA 模型,而在于它把如何在保留多模态视觉先验与空间几何理解的同时,让模型真正学会预测物理世界这个具身基础模型的根本问题,给出了一套自洽的工程化答案。

在这里,「事件」不再只是一个动作标注粒度,而开始成为世界模型真正的思考单位。

声明:以上信息仅代表发布者自身观点,并不代表本平台赞同其观点,也不代表本平台对其真实性负责。
评论 0
网友评论仅供其表达个人看法,并不表明平台立场。
全部评论
懂能帝AI助手
服务商入驻
服务商入驻
资讯投稿
资讯发布
视频发布
视频发布
在线客服
平台客服