首页能源头条推荐资讯详情
跨越VLA的“虚实鸿沟”,中国具身智能大模型长出“新大脑”
发布者:
来源:
机器人的这颗“大脑”,不是只有一种答案
当具身智能行业里大多数玩家都在抢滩IPO时,有人却把重心放在了大模型上。
一面是宇树科技科创板IPO过会、智元启动赴港IPO,行业从一级市场加速向二级市场迁徙;另一面,行业内部的路线竞争却在肉眼可见地白热化,从硬件形态之争,到数据来源之争,再到如今最核心的“大脑”架构之争。
在这个当口,国内两家具身智能公司几乎同时拿出了各自的“答卷”。
5月29日,自变量机器人发布了全球首个「事件级预测」具身智能世界模型WALL-WM,颠覆了行业沿用数十年的“按帧学习”范式;6月初,星海图紧随其后推出了新一代具身基础模型G0.5,在七项独立评测中全面领先,并在业界公认最难的长程任务基准BEHAVIOR-1K上,以一个通用策略模型,击败了π0.5和以往依赖多个专用模型的冠军方案。
在行业普遍“重硬件、轻软件”的叙事惯性下,这两家公司为什么偏偏选择了这条既慢又重的路?
01大模型的“天花板”被捅破了?
目前市面上主流的具身智能企业,绝大多数都采用了VLA(视觉-语言-动作)这条技术路线。但在VLA范式下,具身智能模型的进化天花板其实肉眼可见。
首当其冲的便是“虚实鸿沟”这一世界性难题。2026年4月,斯坦福大学发布的《AI Index Report 2026》揭示了一个令人警醒的现实:由于仿真环境难以完全模拟真实世界的物理属性,某些机器人在仿真环境中高达89.4%成功率,在真实家庭场景中骤降至12%。
与此同时,VLA模型依赖互联网图文数据训练,虽能识别物体,却难以真正理解施力、形变等物理交互规律,被业内戏称为“缸中大脑”。
更棘手的是,VLA在通用化与自主化维度的脆弱泛化能力,导致一旦场景变化或任务链条拉长,成功率便会剧烈下降。正是这种数据驱动下的“盲走”,卡住了行业的瓶颈。
面对这一结构性天花板,星海图和自变量机器人,几乎同时从两个截然不同的方向给出了各自的回答。
首先,星海图G0.5的做法,可以理解为在VLA架构内部做了一次彻底的“底层重构”。
它跳出了传统VLA“VLM做编码器+独立动作专家”的路径依赖,在这条路上,VLM输出的隐藏状态要经过压缩才能传递给动作模块,核心推理能力被稀释了大半。G0.5的解法相当直接:让同一个模型、同一套权重,在自回归token序列中同步生成推理token与动作token。自此,VLM的链式思维、上下文学习、prompt调制等生成式能力,可以原生作用于动作生成,中间不再隔着那个让信息严重损耗的压缩瓶颈。
而这套架构落地,靠的是一项不小的工程功。
G0.5引入了跨本体动作编解码器,将18种机器人本体数据统一到27维动作空间,并通过“活跃自由度预测”机制避免为静止关节浪费token。例如在双臂任务中,这套稀疏设计就能节省将近一半的token量。
原生思维链机制则让模型在生成动作前先输出子任务分解、目标框等推理token,这些推理结果与动作token受同一损失函数约束,真正实现了“边思考边行动”。
再加上时空注意力模块通过分解的时空注意力机制,将历史视觉信息融入当前决策,尤其适用于需要反复穿越空间的长程任务。
量化数据更能说明问题。
在真实机器人数据集DROID的10项桌面任务中,G0.5未经任何微调即达82.5%的平均成功率,较前代模型提升25个百分点;在SimplerEnv-Bridge跨数据集迁移测试中取得87.3%的成绩,超越所有对比模型;在双臂协调测试RoboTwin 2.0中取得93.3%的平均成绩……
最直观的检验来自BEHAVIOR-1K,包含50个完整家庭场景的长程任务,单次演示平均时长6.6分钟。G0.5仅用单个预训练模型训练1个epoch,就以0.2904的任务成功率超越了前代训练4个周期的成绩,更胜过使用4个模型集成的冠军方案。
如果说G0.5是对VLA的一次“内部大重构”,那么自变量机器人团队带来的全球首个「事件级预测」具身智能世界模型WALL-WM则是彻底换了一条赛道。它不再走VLA的老路,而是从“世界模型”的视角重新思考机器人怎么学动作。
传统VLA的思路是把机器人动作切成固定长度的“帧块”来学:预测0.1秒后手在哪、0.2秒后手在哪……把一个抓杯子的动作拆成几十张几乎雷同的画面,让模型一帧一帧去死记硬背。
结果就是,模型记住的是“手指每帧挪几毫米”,而不是“抓住杯子”这个目标。如果在这时换个桌子、换种节奏,就会立刻翻车。
为了实现这一关键突破,自变量团队在论文中指出,文本、视觉、动作这三类信息在高维空间中具有不同的流形几何与时间尺度,“完全对齐”在本质上就是不现实的。
文本是低熵离散语义,视觉是高维连续场景动态,动作则被物理世界强约束,三者既不共享空间邻域也不共享时间尺度,强行压入同一共享空间,只会让预训练先验在动作捷径中被覆盖。这也能解释为何相当多数VLA仿真效果亮眼,真机落地却大打折扣。
所以WALL-WM的解法则相当“反常识”。它把预测单位从时间帧换成了语义事件——伸手、抓取、提起、移动、放置,这些有明确物理意义的行为片段,才是机器人真正需要学会的东西。这时,模型不再问“0.1秒后是什么样”,而是直接想象“抓住杯子那一刻”是什么样,并基于这个想象同步生成抵达它的动作。
具体来说,WALL-WM做的不是直接从画面生成动作,而是先让模型理解“下一个事件会让世界怎么变”,再把这种变化翻译成机器人该执行的轨迹。这背后是一整套从感知到控制的路径重构:事件指令入口告诉模型“下一步要做什么”;事件世界模型负责预演“下一个事件会让世界怎么变”;动作生成层将这种变化翻译成机器人可执行的轨迹。
总的来看,G0.5和WALL-WM在VLA路线逐渐逼近天花板的行业节点上,分别从“架构内部重构”和“换道世界模型”两个方向撕开了一道裂缝,第一次让行业知道机器人这颗“大脑”,不再只有一种答案。
02什么样的土壤,长出了这两颗“大脑”?
技术突破从来不是凭空发生的。
G0.5和WALL-WM的背后,是两家公司在技术路线选择、数据策略和资本布局上的长期定力。其中最显著的共性,在于对“大脑先行”战略的坚持。
星海图创始人高继扬出身Waymo和Momenta的自动驾驶量产研发一线,其创始团队兼具清华学术背景与一线工程实战经验。在行业普遍遵循“硬件先行”逻辑的背景下,星海图反其道而行之——将大量精力投入大模型的预训练架构设计,用工厂和商业场所的真实部署数据持续反哺G系列模型迭代。
自变量则更纯粹,从创立之初就确立了“大小脑统一的端到端大模型”的技术路线。他们认为,“大脑”不是AI模型的下游应用,而是与语言大模型平行存在的物理世界基础模型。
不过,虽然两家公司都押注了“大脑先行”这条更“重”却更真实的路线,但在路径选择上却各有侧重。
星海图走的是“整机+智能”的软硬一体策略,产品矩阵已覆盖轮式双臂机器人R1系列、双足人形机器人Kengo及多款本体硬件,同时提供预训练模型、数据采集、评测、微调、部署等完整后训练工具链。2026年公司已收获国内头部汽车制造商与智慧物流企业的千台级订单。
并且,星海图并未将技术路线局限于单一的VLA框架。早在2026年3月,团队便先行发布了世界模型研究成果Fast-WAM,彻底告别了“先想象、后执行”的传统低效范式,通过对模型底层逻辑的深度重构,将单步推理延迟压缩至190毫秒,在保持SOTA性能的同时实现4倍提速,为具身智能的规模化产业落地铺平了道路。
自变量同样践行软硬一体,但更突出“模型驱动硬件”的底层逻辑。公司已发布“量子一号”“量子二号”两款机器人本体,并实现机械臂、关节模组、动力驱动器等核心零部件的全面自研。创始人王潜也提出,具身智能的核心竞争在于数据闭环构建与模型进化能力。
在这一时间节点,6月9日,智元(AGIBOT)也推出行业首个开放且完整的具身智能生态技术体系——AIMA(AI Machine Architecture),正式启动“元苼”生态发展计划,未来五年将投入20亿元专项资金。这进一步预示行业正在从“本体”之争转向“机器人大脑”之争。
不论是G0.5、WALL-WM,还是智元在此时推出的AIMA生态,它们的诞生并非偶然,而是技术路线、数据策略与资本布局共同作用的必然结果。当资本逐渐冷静,数据壁垒与模型架构的分水岭愈发清晰,行业或许正在达成一个共识:真正的护城河,不在关节灵活度与量产规模之中,而在代码深处。
反馈举报
声明:以上信息仅代表发布者自身观点,并不代表本平台赞同其观点,也不代表本平台对其真实性负责。
评论 0
网友评论仅供其表达个人看法,并不表明平台立场。全部评论
加载失败
总发布:463粉丝:0
相关推荐
- 加载失败
- 加载失败
- 加载失败
- 加载失败
- 加载失败
- 加载失败
往事随風
- 加载失败
新经济资讯
- 加载失败
- 加载失败
- 加载失败







