首页能源头条推荐资讯详情

WDC 2026 | 星海图赵行：AI 将重塑智能机器人，从 Humanoid 走向 Superhuman

2026-06-22 17:40

发布者：冬天的蝉

来源：冬天的蝉

标签：星海图

智能机器人，从 Humanoid 走向 Superhuman" title="WDC 2026 | 星海图赵行：AI 将重塑智能机器人，从 Humanoid 走向 Superhuman">

6月16日，星海图全球开发者大会（Galaxea WDC 2026）在北京亦庄举行，以“Build with Galaxea”为主题，600余位全球开发者、顶尖学者、产业链伙伴及媒体代表共同参会。

继CEO高继扬之后，星海图首席科学家赵行发表技术演讲《AI重塑智能机器人》，首次系统拆解了星海图的具身智能技术路线——本能智能、作业智能、进化智能三个层次，并阐述了背后的模型、数据与工程实践。

在演讲中，赵行公布并开源新一代 VLA 基础模型 G0.5，介绍其统一自回归架构与“边想边干”的原生动作思维，同步开放模型试用通道，诚邀行业同仁一同参与众测验证；并分享了世界模型 Fast-WAM 如何将推理提速、走向实时；描绘了进化智能的终极图景——让人形机器人从 Humanoid 走向 Superhuman。

我们相信，机器人不应止步于模仿人类。唯有让模型、数据与本体形成持续进化的闭环，具身智能才能真正为人类创造巨大价值。以下为赵行演讲实录。

大家好，我今天演讲的标题是《AI重塑智能机器人》。

先说说我自己的经历。我是2013年开始读的博士。非常幸运的是，计算机视觉领域发生了一些重要的事——AlexNet 的出现，让我们第一次看到了人工智能领域的巨大突破。那个时代的进展现在看来可能微不足道，但让我们第一波AI原生博士生们看到了未来的曙光。

在那之后，领域里持续有重大突破，包括 AlphaGo 时刻，再到最近的大语言模型时刻。我有很多清华同事从事大语言模型研究，说实话，他们的进展让我非常焦虑。语言模型刚出来时，我就问他们：“为什么你觉得大模型如此重要？”他们告诉我，大语言模型打破了代码的接口，以后它可以改变方方面面的软件生态，这个事情发生在 GPT-3 刚出来的时候，到现在已经有五年左右的时间。今天我们看到，大语言模型已经彻底突破了整个软件的生态壁垒，将过去普通人不愿意干的、觉得很难的、晦涩的代码完全进行了重构。

那么，我们不禁要问：什么时候物理世界也能有一个这样的 agent，有一套体系和生态，帮我们解决物理世界中的方方面面？基于这样的思考，我们在具身智能的研究方向上，在星海图具身智能技术规划上，确定了三个智能方向：

第一个叫做“本能智能”：我们希望机器人通过 AI 的方法，学会如何控制自己的身体。

第二个叫做“作业智能”：通过 AI 让机器人学会如何操作、改变世界，最终产生生产力价值。

第三个叫做“进化智能”：AI 不仅改变机器人控制身体的能力、改变世界的能力，最终连人形机器人本身的形态也会被AI所定义，从而创造更大的生产力价值。

接下来，我讲讲我们过去做了哪些工作，以及未来打算怎么做。

本能智能：让机器人驾驭整个身体

首先讲本能智能。人形机器人和传统工业机器人有一个非常大的不同：传统工业机器人的形态是根据作业环境来定义的，我们尽量给它刚好够用的自由度，然后用编程方式定义每个关节运动来解决问题。但人形机器人及仿生机器人恰恰相反——我们会先给它很多自由度，再让它实现功能。

这时我们发现，过去基于人类经验和规则的算法，已经无法充分协调这几十个关节。这也是为什么我们认为，本能智能是一个颠覆式的技术方向，它改变了传统控制算法的范式。

本能智能，是机器人在面对真实物理世界时，具备可复用、可调用、可泛化的身体基础能力。这是让机器人走进千家万户、商业场景、工业场景、危险场景的基本保障。

在这个方向上，我们做的工作叫做 Project Instinct，我们内部定义为本能智能 I0。机器人通过观察世界，完成有挑战的全身控制。比如跑酷——这是人觉得很难的任务，我们让机器人来做。我们发现，当充分训练整个系统后，机器人能像人一样克服复杂地形。比如，机器人可以用手撑高台，或用背辅助跨越障碍。这个系统的研发中，我们让机器人实现了多种能力，包括如何克服从仿真到真实迁移的 Sim-to-Real Gap，如何把感知融入到机器人的 locomotion，如何创造多个并行的仿真环境实现机器人大规模的训练。跑酷是我们的第一个里程碑。

再往后，我们会进一步开发本能智能，我们定义了两个重要节点：I0.5 和 I1.0。

在 I0.5 阶段，我们主要解决两大问题：

一是机器人如何与复杂场景环境交互。过去机器人大多数运动都在平地上完成，但真实环境里有台阶、座椅、工作台，机器人必须与之交互。

二是机器人如何与物体交互。人形机器人可以搬运、分拣，但面对不同外形、不同重量的箱子，需要自适应。

到了 I1.0，我们希望构建出真正的本能智能基础模型，让机器人实现所有与环境和物体的交互。那时，机器人的运动能力和作业能力的边界会逐渐模糊，它能够完成蓝领工人在复杂场景中的作业，产生价值。所以，I1.0 是连接本能智能和作业智能的重要拐点。

作业智能：让机器人提供生产力

接下来讲作业智能。作业智能的目标是让机器人提供真正的生产价值。和本能智能不同，大多数作业智能需要复杂灵巧的手臂操作——单臂、双臂甚至多臂。这些能力不是先天性的，都是后天训练习得。

我有个有趣的观察：在人类社会中，我们利用动物帮我们做全身运动的生产价值，比如牛耕地、驴拉车；但在操作方面，我们从未真正找到一种动物能帮我们实现精细操作的生产价值。为什么？因为后天习得的操作能力，需要对任务、场景、问题有充分的泛化理解。

这种泛化理解从哪里来？我们认为非常重要的起点是大规模的模仿学习，而模仿学习的根源是数据。因此，我们需要在真实场景里采集大规模数据，让机器人跟着人类老师学习理解、完成、执行复杂任务。

从去年开始，我们真正开始大规模的投入这个方向的研究和研发。首先我们构建了大规模的开放世界数据集，并把其中一部分开源给了社区。这个数据集不同于实验室采集，我们带着机器人去了真实的酒店、餐厅、家庭、超市、医院，采集真实任务。我经常把这种采集和实验室采集的区别叫做 Real-to-Real Gap——场景复杂度、光照、物品摆放完全不同。只有在真实世界里采集，才没有训练和部署之间的鸿沟。

基于这个数据集，我们训练了第一版 VLA 模型——G0。作为星海图大模型的起点，G0 有两个重要意义：

第一，它证明了真实世界数据采集这条技术路线的正确性，从此我们投入更大资源，成立了数据公司。

第二，它描绘了具身智能 Scaling Law 的第一个点——随着数据量和模型增大，能力持续提升，上限远未触及。

今年年初，我们发布了第一版世界模型Fast-WAM。基于 WAM（World Action Model）我们有一个重要发现：市面上大多数基于世界模型的机器人策略，推理速度非常慢。因为模型推理时需要预测未来，通俗来讲，就是在一个现有的视频生成模型上加上一个机器人策略头，最后实现有世界推演能力的机器人策略模型。

于是我们提出了一个科学问题：世界模型的强大能力，究竟来自推理时能想象未来，还是来自训练时学到的表征？我们的实验表明，能力主要来自训练时预测未来——在这个过程中模型学到了世界的隐含表征，包括隐式的动作和隐式的动力学。于是，我们砍掉了推理时的视频预测，发现效果不受影响，但推理速度提升了 5 倍。现在，我们可以在消费级显卡上运行 5~10 亿参数的 WAM，这对部署有巨大实用价值。这也是我们在该技术方向做出的重要贡献。

本月初，我们在 VLA 方向上也迎来突破，就是我们正式发布的 G0.5 基础模型：“从后训练到零样本泛化”。过去，VLA 模型虽强大，但要解决具体任务仍需针对场景采集数据进行后训练。但在 G0.5 中，我们发现当模型充分预训练后，推理时可以直接使用，无需后训练，部署时只需自然语言指令，机器人就会照做。

比如人类给出复杂语言指令，比如“轻轻地放”“抓住把手往上抬再抽出来”“把东西倒进电饭锅，没倒干净就再用力”……机器人都能准确执行。这些场景是我们数据采集时从未去过的地方。我们自己也惊讶，仿佛看到了未来——机器人 agent 能基于原子指令组合，完成更复杂、更长时间的任务。

同时，经过少样本训练后，G0.5 能完成物品分拣、鞋子配对、袜子配对等复杂任务。

那么 G0.5 用了什么技术？当前 VLA 主流框架是基于 π0 或类似架构——将一个现有的 VLA 加一个 Action Expert。VLA 的部分使用自回归的方法进行训练，Action Expert 则用扩散模型进行训练，两者拼接实现任务闭环。但我个人对这种“狗尾续貂”的结构有些疑虑。大语言模型只用一套 Decoder、一套参数、一个自回归损失，就能训练所有文本。多模态领域是否也能统一？G0.5 就是我们的一次重要尝试。

我们把语言、图像、思维链和动作全部离散化，把它们放入同一个数据流里，就像语言模型把所有文本放在一起，然后输入一个纯解码器模型。所有模态统一用自回归损失训练，真正简化并统一了训练方法。训练后，模型实现了“边想边干”——输入观测图像，在数据流中生成思考（任务分解、目标定位、2D轨迹规划），最后输出动作 Token。整个框架非常优美，且表现远超拼接模型。我们在七大国际权威机器人评测基准上全面超越 SOTA。

今天，我邀请所有开发者和学术同仁来尝试使用 G0.5——我们会将模型权重和代码全面开源。常见机器人如 SO-100、Franka Emika 等可开箱即用；自有机器人也只需少量数据就能测试效果。

展望未来，我们会在作业智能方向持续发力，向 G0.7 和 G1.0 努力。G0.7 将扩大泛化边界，面向更多物体、场景、指令和动作组合，提升开放环境下的稳定性和恢复能力。G1.0 将是通用作业智能体，统一操作、规划、记忆、反馈，应对长时间尺度和真实作业流程。

最近常有投资人和学术朋友问我：你们既做 WAM 又做 VLA，是两条路线吗？哪个更有机会成功？我的答案是——VLA 和 WAM 各有长处。VLA 擅长语义，赋予机器人“语义智能”；WAM 更擅长物理世界，尤其视觉物理，赋予机器人“物理智能”。最终它们会融合统一，我们希望在 G0.7 或 G1.0 发布时，能呈现我们自己的答案。

进化智能：让机器人超越人类身体的限制

最后，我讲讲进化智能。我坚信 AI 可以真正的重塑我们的物理世界，让机器人真正拥有超越人类身体限制的能力，我们称为进化智能。回头看，人类的进化——从四足行走到直立行走，解放双手用于操作经历了上万年。但今天，我们拥有强大的机电设计能力和AI训练能力，能否反向定义机器人的身体？让人形机器人只是具身智能的中间形态，而非最终目标。

我们希望在接下来的时间里，从研究人形机器人到研究超人机器人，即从 Humanoid 走向 Superhuman。当我们面对新场景时，可以根据任务目标，通过AI训练，不仅把梯度反传回策略模型，也反传到机器人构型参数——关节数量、肢体长度、扭矩、质量等。最终，在最小成本下实现最大化生产力价值。

这是我们研究具身智能的重要使命：过去我们做了大量模仿人的工作，接下来要成为机器人的“造物主”。进化智能的最终结果是“一脑多形”——一个通用的大脑，适配多种身体形态。

总结

最后，总结一下星海图的技术路线和展望：从本体智能控制机器人的全身每个关节，实现复杂的动作能力，到作业智能进入到真正的场景里产生生产价值，最后到进化智能，通过 AI 的方法改变机器人的本体结构和构形，实现真正价值闭环。

这三层技术形成一个持续进化的闭环：模型越强，泛化越好，进入更多场景，产生更多高质量数据，进而优化身体形态，产生更大工作价值。

希望我们共同努力，让具身智能真正为人类创造巨大价值。

谢谢大家！

反馈举报

声明：以上信息仅代表发布者自身观点，并不代表本平台赞同其观点，也不代表本平台对其真实性负责。

网友评论仅供其表达个人看法，并不表明平台立场。