首页能源头条推荐资讯详情

“事件级”世界模型WALL-WM：机器人的大脑，终于学会“抓重点”了

2026-06-01 17:50

发布者：新经济资讯

来源：新经济资讯

标签：机器人Wall-WM

作者｜苏涵

你每天早上过马路，需要同时算清楚对面那辆车的车速、距离和你走完斑马线所需的 3.5 秒吗？

当然不需要。你只会快速看一眼，心里默默判断一个关键问题：「车会不会撞到我？」然后决定是走还是停。

整个过程不到一秒，消耗的能量微乎其微。但今天的机器人，几乎都在做前一种事。

它们被设定为按固定频率来预测世界的下一秒，每秒 30 次、50 次，哪怕明知道接下来的 0.5 秒什么都没发生，它也必须算完。

这就像你每天早上出门前，都要完整计算一遍过马路的 300 个步骤才敢迈出第一步。

累不累？当然累。

关键是，大部分计算都是白费的。这就是当前机器人「时灵时不灵」的根本原因之一：

它们太听话了，听话到对每一帧、每一秒都平均用力，从不问自己「什么事值得想，什么事不用想」。

5 月 29 日，自变量机器人推出首个具备「事件级预测能力」的世界模型：Wall-WM。

它的核心就是跳出「按时间均匀采样」的旧范式，模型不再机械地预测每一帧，而是判断哪些瞬间真正重要。

换句话说，Wall-WM 让机器人终于学会了「抓重点」。

然而，这个世界模型的推出，到底意味着什么？

为什么「抓重点」这种人类与生俱来的能力，放到机器人身上就成了底层技术革新？要回答这些问题，得先从机器人「大脑」的工作方式说起。

从机械模仿到真正理解，Wall-WM 是如何做到的？

目前行业主流的机器人「大脑」叫 VLA（视觉-语言-动作）。听名字就知道，一个负责「看」，一个负责「听懂人话」，一个负责「动手」。

听起来挺合理，但问题在于，这三个模块是串联的：视觉模块把看到的东西传给语言模块，语言模块理解后再传给动作模块。每传一次，信息就打一次折扣。

这就是为什么很多机器人看起来很「笨」。不是因为它没看到，而是因为它看到的信息在传到「动手」模块时，已经丢失了一大半。那有没有什么办法可以改进？

自变量机器人给出的答案是，通过 Wall-WM 这一世界模型，先换掉它思考的时间单位。

传统模型按固定频率预测未来，每秒 30 次、50 次，每一帧都用力。哪怕接下来的 0.5 秒什么都没发生，它也必须算完，这叫「帧级预测」。

但自变量机器人换了一套逻辑：以「事件」为单位来预测。

什么是事件？伸手、抓取、提起、移动、放置，这些在一段时间内连贯、有明确意义的动作片段，就是事件。

模型只在世界发生「重要变化」时才重新调整预测。

比如「杯子开始滑落」是一个事件，「手碰到了杯子」是另一个事件。其他时间，它不需要每秒思考 30 次。

更重要的是，它学到的不是「第 10-20 帧我要执行指令 X」，而是在此事件下，物理世界将如何演化、我应当如何执行。

但这里有一个隐藏的难题：

如果让机器人在学新动作的同时，把原来好不容易学会的视觉能力给忘掉了，怎么办？Wall-WM 在设计上专门考虑了这个「学新不忘旧」的问题。

Wall-WM 的设计很巧妙。它的视觉模块和动作模块不是平起平坐的，而是单向耦合：

动作模块只能读取视觉模块的信息，但不能反向干扰它。就像你看书的时候可以记笔记，但记笔记不会把书上的字改掉。

这样一来，在大规模训练时，模型既能保留原有的视觉理解能力，又能让动作能力持续增长。工程师也不需要提前「猜」动作该怎么编码，因为模型自己会学出来。

但解决了「学新不忘旧」，Wall-WM 还要解决另一个老问题：机器人身上有好几个摄像头，它怎么知道它们拍到的其实是同一个东西？

大多数机器人身上不止一个摄像头，比如头顶一个、左手腕一个、右手腕一个。问题是，它怎么知道这三个摄像头拍到的画面是对应同一个物体的？

传统做法是让模型自己去学对应关系。

但效果往往不好：模型会偷懒，把跨视角注意力当成一个通用特征混合器，而不是真正去理解空间几何。

因此，Wall-WM 引入了两个机制：视锥掩码和管状掩码。

视锥掩码从物理层面告诉模型：这两个摄像头的画面在空间上根本不可能对应，别费劲去学它们的关系。

管状掩码则反过来「强迫」模型去学那些真正应该对应的区域，它会故意遮挡一个摄像头里的某块区域，逼模型从其他摄像头找到相同的内容。

一个通俗的理解：普通 AI 看东西是「二维拼图」，每一张画面都是独立的平面。

而 Wall-WM 看东西是「三维积木」，它知道不同角度的画面拼起来是一个立体的物体。哪怕某个角度被遮挡了，它也能「脑补」出物体的真实位置。

看懂空间、理解事件，Wall-WM 在「想什么」上已经比传统模型前进了一大步。但机器人光会想还不够，它还得想得快，毕竟真实世界不等人。

机器人在做复杂任务时，往往需要「思维链」（CoT），也就是在脑子里先推理一遍再行动。

但传统 CoT 是一步一步推理的，想完第一步，才能想第二步，非常慢。

Wall-WM 的做法是：

底层只跑一次，高层像阶梯一样并行展开。而且最关键的是，它产出的 CoT 仍然是离散可读的文本，你随时可以打开看模型是怎么推理的，可解释性和实时性第一次不用二选一。

Wall-WM 的发布，对行业和开发者来说意味着什么？

从理解事件到看懂空间，再到快速决策，Wall-WM 在底层已经把「机械式」的思考方式改写了一遍。

不过，Wall-WM 还有一个讨巧的设计：同一套「大脑」，可以灵活适配不同场景。

它有两种模式。一种叫「事件模式」，适合已经有上层规划器的场景，比如你给机器人一个「把杯子拿过来」的任务，它自己就能拆成伸手、抓取、提起、移动、放置等一串事件，一次输出一个完整的动作单元，非常贴合事件边界。

另一种叫「统一模式」，适合没有外部规划器、需要端到端实时控制的场景。模型自己边推理边执行，保持固定的控制频率。

这两种模式可以按需切换，不用重新训练。

轻量级的家庭小机器人可以跑在低算力模式，工业机械臂可以切换到大算力模式。同一套代码思路，小到扫地机器人，大到工厂产线，都能适配。

对于开发者来说，再也不用为不同设备维护多套模型，开发成本也在大幅降低。

目前，具身智能行业有一个共识正在形成：

世界模型，将成为机器人领域的下一个基础设施，但大多数都还停留在论文或者内部系统阶段。

而自变量机器人是把「事件级预测能力」的世界模型完整展示出来的。

它不是放出一个 demo 或者一个 API，而是通过技术报告详细公开了整套思路、模型设计、训练方案和实验数据。

而实验结果，也验证了「事件级预测」这条路线的有效性。

在真机 Core15 L1 基准测试中，Wall-WM 的平均任务完成分数明显领先 π0.5 与 DreamZero 等同类模型。

在基础任务、推理任务、灵巧操作以及泛化场景下，均展现出了更强的完成能力，也是目前抽象指令设定下完成度最高的 L1 模型之一。

这意味着，Wall-WM 提升的已经不只是机械执行能力，而是机器人对于复杂任务与抽象目标的理解能力。

与此同时，在具身视频生成（Embodied Video Generation）测试中，相比 Wan2.1、Wan2.2 等传统视频生成模型，Wall-WM 在 Motion Quality（动作质量）、Semantic Consistency（语义一致性）以及 Physical Plausibility（物理合理性）等多个具身相关维度上，均实现了明显领先。

这背后，本质上就是因为它不再只是逐帧生成画面，而是在预测「事件」如何在真实物理世界中演化。

此外，在 3D Awareness（CO3Dv2）测试中，Wall-WM 在 Point Error 与 Depth Error 两项空间误差指标上，也优于 WAN2.1-14B、Open-Sora 2.0、V-JEPA、DINOv2 等模型。

但相比性能提升，更重要的是，它改变了机器人理解世界的方式。

过去的机器人，对每一帧都在用力；而现在，它开始学会像人一样，知道什么值得思考，什么不值得浪费算力。

而 Wall-WM 真正的价值，或许并不在于它是又一个跑分更高的 VLA 模型，而在于它把如何在保留多模态视觉先验与空间几何理解的同时，让模型真正学会预测物理世界这个具身基础模型的根本问题，给出了一套自洽的工程化答案。

在这里，「事件」不再只是一个动作标注粒度，而开始成为世界模型真正的思考单位。

反馈举报

声明：以上信息仅代表发布者自身观点，并不代表本平台赞同其观点，也不代表本平台对其真实性负责。

网友评论仅供其表达个人看法，并不表明平台立场。