首页能源头条推荐资讯详情

跨越VLA的“虚实鸿沟”，中国具身智能大模型长出“新大脑”

2026-06-16 09:11

发布者：向日葵

来源：向日葵

标签：机器人模型

机器人的这颗“大脑”，不是只有一种答案

当具身智能行业里大多数玩家都在抢滩IPO时，有人却把重心放在了大模型上。

一面是宇树科技科创板IPO过会、智元启动赴港IPO，行业从一级市场加速向二级市场迁徙；另一面，行业内部的路线竞争却在肉眼可见地白热化，从硬件形态之争，到数据来源之争，再到如今最核心的“大脑”架构之争。

在这个当口，国内两家具身智能公司几乎同时拿出了各自的“答卷”。

5月29日，自变量机器人发布了全球首个「事件级预测」具身智能世界模型WALL-WM，颠覆了行业沿用数十年的“按帧学习”范式；6月初，星海图紧随其后推出了新一代具身基础模型G0.5，在七项独立评测中全面领先，并在业界公认最难的长程任务基准BEHAVIOR-1K上，以一个通用策略模型，击败了π0.5和以往依赖多个专用模型的冠军方案。

在行业普遍“重硬件、轻软件”的叙事惯性下，这两家公司为什么偏偏选择了这条既慢又重的路？

01大模型的“天花板”被捅破了？

目前市面上主流的具身智能企业，绝大多数都采用了VLA（视觉-语言-动作）这条技术路线。但在VLA范式下，具身智能模型的进化天花板其实肉眼可见。

首当其冲的便是“虚实鸿沟”这一世界性难题。2026年4月，斯坦福大学发布的《AI Index Report 2026》揭示了一个令人警醒的现实：由于仿真环境难以完全模拟真实世界的物理属性，某些机器人在仿真环境中高达89.4%成功率，在真实家庭场景中骤降至12%。

与此同时，VLA模型依赖互联网图文数据训练，虽能识别物体，却难以真正理解施力、形变等物理交互规律，被业内戏称为“缸中大脑”。

更棘手的是，VLA在通用化与自主化维度的脆弱泛化能力，导致一旦场景变化或任务链条拉长，成功率便会剧烈下降。正是这种数据驱动下的“盲走”，卡住了行业的瓶颈。

面对这一结构性天花板，星海图和自变量机器人，几乎同时从两个截然不同的方向给出了各自的回答。

首先，星海图G0.5的做法，可以理解为在VLA架构内部做了一次彻底的“底层重构”。

它跳出了传统VLA“VLM做编码器+独立动作专家”的路径依赖，在这条路上，VLM输出的隐藏状态要经过压缩才能传递给动作模块，核心推理能力被稀释了大半。G0.5的解法相当直接：让同一个模型、同一套权重，在自回归token序列中同步生成推理token与动作token。自此，VLM的链式思维、上下文学习、prompt调制等生成式能力，可以原生作用于动作生成，中间不再隔着那个让信息严重损耗的压缩瓶颈。

而这套架构落地，靠的是一项不小的工程功。

G0.5引入了跨本体动作编解码器，将18种机器人本体数据统一到27维动作空间，并通过“活跃自由度预测”机制避免为静止关节浪费token。例如在双臂任务中，这套稀疏设计就能节省将近一半的token量。

原生思维链机制则让模型在生成动作前先输出子任务分解、目标框等推理token，这些推理结果与动作token受同一损失函数约束，真正实现了“边思考边行动”。

再加上时空注意力模块通过分解的时空注意力机制，将历史视觉信息融入当前决策，尤其适用于需要反复穿越空间的长程任务。

量化数据更能说明问题。

在真实机器人数据集DROID的10项桌面任务中，G0.5未经任何微调即达82.5%的平均成功率，较前代模型提升25个百分点；在SimplerEnv-Bridge跨数据集迁移测试中取得87.3%的成绩，超越所有对比模型；在双臂协调测试RoboTwin 2.0中取得93.3%的平均成绩……

最直观的检验来自BEHAVIOR-1K，包含50个完整家庭场景的长程任务，单次演示平均时长6.6分钟。G0.5仅用单个预训练模型训练1个epoch，就以0.2904的任务成功率超越了前代训练4个周期的成绩，更胜过使用4个模型集成的冠军方案。

如果说G0.5是对VLA的一次“内部大重构”，那么自变量机器人团队带来的全球首个「事件级预测」具身智能世界模型WALL-WM则是彻底换了一条赛道。它不再走VLA的老路，而是从“世界模型”的视角重新思考机器人怎么学动作。

传统VLA的思路是把机器人动作切成固定长度的“帧块”来学：预测0.1秒后手在哪、0.2秒后手在哪……把一个抓杯子的动作拆成几十张几乎雷同的画面，让模型一帧一帧去死记硬背。

结果就是，模型记住的是“手指每帧挪几毫米”，而不是“抓住杯子”这个目标。如果在这时换个桌子、换种节奏，就会立刻翻车。

为了实现这一关键突破，自变量团队在论文中指出，文本、视觉、动作这三类信息在高维空间中具有不同的流形几何与时间尺度，“完全对齐”在本质上就是不现实的。

文本是低熵离散语义，视觉是高维连续场景动态，动作则被物理世界强约束，三者既不共享空间邻域也不共享时间尺度，强行压入同一共享空间，只会让预训练先验在动作捷径中被覆盖。这也能解释为何相当多数VLA仿真效果亮眼，真机落地却大打折扣。

所以WALL-WM的解法则相当“反常识”。它把预测单位从时间帧换成了语义事件——伸手、抓取、提起、移动、放置，这些有明确物理意义的行为片段，才是机器人真正需要学会的东西。这时，模型不再问“0.1秒后是什么样”，而是直接想象“抓住杯子那一刻”是什么样，并基于这个想象同步生成抵达它的动作。

具体来说，WALL-WM做的不是直接从画面生成动作，而是先让模型理解“下一个事件会让世界怎么变”，再把这种变化翻译成机器人该执行的轨迹。这背后是一整套从感知到控制的路径重构：事件指令入口告诉模型“下一步要做什么”；事件世界模型负责预演“下一个事件会让世界怎么变”；动作生成层将这种变化翻译成机器人可执行的轨迹。

总的来看，G0.5和WALL-WM在VLA路线逐渐逼近天花板的行业节点上，分别从“架构内部重构”和“换道世界模型”两个方向撕开了一道裂缝，第一次让行业知道机器人这颗“大脑”，不再只有一种答案。

02什么样的土壤，长出了这两颗“大脑”？

技术突破从来不是凭空发生的。

G0.5和WALL-WM的背后，是两家公司在技术路线选择、数据策略和资本布局上的长期定力。其中最显著的共性，在于对“大脑先行”战略的坚持。

星海图创始人高继扬出身Waymo和Momenta的自动驾驶量产研发一线，其创始团队兼具清华学术背景与一线工程实战经验。在行业普遍遵循“硬件先行”逻辑的背景下，星海图反其道而行之——将大量精力投入大模型的预训练架构设计，用工厂和商业场所的真实部署数据持续反哺G系列模型迭代。

自变量则更纯粹，从创立之初就确立了“大小脑统一的端到端大模型”的技术路线。他们认为，“大脑”不是AI模型的下游应用，而是与语言大模型平行存在的物理世界基础模型。

不过，虽然两家公司都押注了“大脑先行”这条更“重”却更真实的路线，但在路径选择上却各有侧重。

星海图走的是“整机+智能”的软硬一体策略，产品矩阵已覆盖轮式双臂机器人R1系列、双足人形机器人Kengo及多款本体硬件，同时提供预训练模型、数据采集、评测、微调、部署等完整后训练工具链。2026年公司已收获国内头部汽车制造商与智慧物流企业的千台级订单。

并且，星海图并未将技术路线局限于单一的VLA框架。早在2026年3月，团队便先行发布了世界模型研究成果Fast-WAM，彻底告别了“先想象、后执行”的传统低效范式，通过对模型底层逻辑的深度重构，将单步推理延迟压缩至190毫秒，在保持SOTA性能的同时实现4倍提速，为具身智能的规模化产业落地铺平了道路。

自变量同样践行软硬一体，但更突出“模型驱动硬件”的底层逻辑。公司已发布“量子一号”“量子二号”两款机器人本体，并实现机械臂、关节模组、动力驱动器等核心零部件的全面自研。创始人王潜也提出，具身智能的核心竞争在于数据闭环构建与模型进化能力。

在这一时间节点，6月9日，智元（AGIBOT）也推出行业首个开放且完整的具身智能生态技术体系——AIMA（AI Machine Architecture），正式启动“元苼”生态发展计划，未来五年将投入20亿元专项资金。这进一步预示行业正在从“本体”之争转向“机器人大脑”之争。

不论是G0.5、WALL-WM，还是智元在此时推出的AIMA生态，它们的诞生并非偶然，而是技术路线、数据策略与资本布局共同作用的必然结果。当资本逐渐冷静，数据壁垒与模型架构的分水岭愈发清晰，行业或许正在达成一个共识：真正的护城河，不在关节灵活度与量产规模之中，而在代码深处。

反馈举报

声明：以上信息仅代表发布者自身观点，并不代表本平台赞同其观点，也不代表本平台对其真实性负责。

网友评论仅供其表达个人看法，并不表明平台立场。