懂能帝首页 懂能帝首页
|
首页能源头条推荐资讯详情

WDC 2026 | 星海图赵行:AI 将重塑智能机器人,从 Humanoid 走向 Superhuman

2026-06-22 17:40
发布者:冬天的蝉
来源:冬天的蝉
标签:星海图
3
0
18
分享

智能机器人,从 Humanoid 走向 Superhuman" title="WDC 2026 | 星海图赵行:AI 将重塑智能机器人,从 Humanoid 走向 Superhuman">

6月16日,星海图全球开发者大会(Galaxea WDC 2026)在北京亦庄举行,以“Build with Galaxea”为主题,600余位全球开发者、顶尖学者、产业链伙伴及媒体代表共同参会。

继CEO高继扬之后,星海图首席科学家赵行发表技术演讲《AI重塑智能机器人》,首次系统拆解了星海图的具身智能技术路线——本能智能、作业智能、进化智能三个层次,并阐述了背后的模型、数据与工程实践。

在演讲中,赵行公布并开源新一代 VLA 基础模型 G0.5,介绍其统一自回归架构与“边想边干”的原生动作思维,同步开放模型试用通道,诚邀行业同仁一同参与众测验证;并分享了世界模型 Fast-WAM 如何将推理提速、走向实时;描绘了进化智能的终极图景——让人形机器人从 Humanoid 走向 Superhuman。

我们相信,机器人不应止步于模仿人类。唯有让模型、数据与本体形成持续进化的闭环,具身智能才能真正为人类创造巨大价值。以下为赵行演讲实录。

大家好,我今天演讲的标题是《AI重塑智能机器人》。

先说说我自己的经历。我是2013年开始读的博士。非常幸运的是,计算机视觉领域发生了一些重要的事——AlexNet 的出现,让我们第一次看到了人工智能领域的巨大突破。那个时代的进展现在看来可能微不足道,但让我们第一波AI原生博士生们看到了未来的曙光。

在那之后,领域里持续有重大突破,包括 AlphaGo 时刻,再到最近的大语言模型时刻。我有很多清华同事从事大语言模型研究,说实话,他们的进展让我非常焦虑。语言模型刚出来时,我就问他们:“为什么你觉得大模型如此重要?”他们告诉我,大语言模型打破了代码的接口,以后它可以改变方方面面的软件生态,这个事情发生在 GPT-3 刚出来的时候,到现在已经有五年左右的时间。今天我们看到,大语言模型已经彻底突破了整个软件的生态壁垒,将过去普通人不愿意干的、觉得很难的、晦涩的代码完全进行了重构。

那么,我们不禁要问:什么时候物理世界也能有一个这样的 agent,有一套体系和生态,帮我们解决物理世界中的方方面面?基于这样的思考,我们在具身智能的研究方向上,在星海图具身智能技术规划上,确定了三个智能方向:

第一个叫做“本能智能”:我们希望机器人通过 AI 的方法,学会如何控制自己的身体。

第二个叫做“作业智能”:通过 AI 让机器人学会如何操作、改变世界,最终产生生产力价值。

第三个叫做“进化智能”:AI 不仅改变机器人控制身体的能力、改变世界的能力,最终连人形机器人本身的形态也会被AI所定义,从而创造更大的生产力价值。

接下来,我讲讲我们过去做了哪些工作,以及未来打算怎么做。

本能智能:让机器人驾驭整个身体

首先讲本能智能。人形机器人和传统工业机器人有一个非常大的不同:传统工业机器人的形态是根据作业环境来定义的,我们尽量给它刚好够用的自由度,然后用编程方式定义每个关节运动来解决问题。但人形机器人及仿生机器人恰恰相反——我们会先给它很多自由度,再让它实现功能。

这时我们发现,过去基于人类经验和规则的算法,已经无法充分协调这几十个关节。这也是为什么我们认为,本能智能是一个颠覆式的技术方向,它改变了传统控制算法的范式。

本能智能,是机器人在面对真实物理世界时,具备可复用、可调用、可泛化的身体基础能力。这是让机器人走进千家万户、商业场景、工业场景、危险场景的基本保障。

在这个方向上,我们做的工作叫做 Project Instinct,我们内部定义为本能智能 I0。机器人通过观察世界,完成有挑战的全身控制。比如跑酷——这是人觉得很难的任务,我们让机器人来做。我们发现,当充分训练整个系统后,机器人能像人一样克服复杂地形。比如,机器人可以用手撑高台,或用背辅助跨越障碍。这个系统的研发中,我们让机器人实现了多种能力,包括如何克服从仿真到真实迁移的 Sim-to-Real Gap,如何把感知融入到机器人的 locomotion,如何创造多个并行的仿真环境实现机器人大规模的训练。跑酷是我们的第一个里程碑。

再往后,我们会进一步开发本能智能,我们定义了两个重要节点:I0.5 和 I1.0。

在 I0.5 阶段,我们主要解决两大问题:

一是机器人如何与复杂场景环境交互。过去机器人大多数运动都在平地上完成,但真实环境里有台阶、座椅、工作台,机器人必须与之交互。

二是机器人如何与物体交互。人形机器人可以搬运、分拣,但面对不同外形、不同重量的箱子,需要自适应。

到了 I1.0,我们希望构建出真正的本能智能基础模型,让机器人实现所有与环境和物体的交互。那时,机器人的运动能力和作业能力的边界会逐渐模糊,它能够完成蓝领工人在复杂场景中的作业,产生价值。所以,I1.0 是连接本能智能和作业智能的重要拐点。

作业智能:让机器人提供生产力

接下来讲作业智能。作业智能的目标是让机器人提供真正的生产价值。和本能智能不同,大多数作业智能需要复杂灵巧的手臂操作——单臂、双臂甚至多臂。这些能力不是先天性的,都是后天训练习得。

我有个有趣的观察:在人类社会中,我们利用动物帮我们做全身运动的生产价值,比如牛耕地、驴拉车;但在操作方面,我们从未真正找到一种动物能帮我们实现精细操作的生产价值。为什么?因为后天习得的操作能力,需要对任务、场景、问题有充分的泛化理解。

这种泛化理解从哪里来?我们认为非常重要的起点是大规模的模仿学习,而模仿学习的根源是数据。因此,我们需要在真实场景里采集大规模数据,让机器人跟着人类老师学习理解、完成、执行复杂任务。

从去年开始,我们真正开始大规模的投入这个方向的研究和研发。首先我们构建了大规模的开放世界数据集,并把其中一部分开源给了社区。这个数据集不同于实验室采集,我们带着机器人去了真实的酒店、餐厅、家庭、超市、医院,采集真实任务。我经常把这种采集和实验室采集的区别叫做 Real-to-Real Gap——场景复杂度、光照、物品摆放完全不同。只有在真实世界里采集,才没有训练和部署之间的鸿沟。

基于这个数据集,我们训练了第一版 VLA 模型——G0。作为星海图大模型的起点,G0 有两个重要意义:

第一,它证明了真实世界数据采集这条技术路线的正确性,从此我们投入更大资源,成立了数据公司。

第二,它描绘了具身智能 Scaling Law 的第一个点——随着数据量和模型增大,能力持续提升,上限远未触及。

今年年初,我们发布了第一版世界模型Fast-WAM。基于 WAM(World Action Model)我们有一个重要发现:市面上大多数基于世界模型的机器人策略,推理速度非常慢。因为模型推理时需要预测未来,通俗来讲,就是在一个现有的视频生成模型上加上一个机器人策略头,最后实现有世界推演能力的机器人策略模型。

于是我们提出了一个科学问题:世界模型的强大能力,究竟来自推理时能想象未来,还是来自训练时学到的表征?我们的实验表明,能力主要来自训练时预测未来——在这个过程中模型学到了世界的隐含表征,包括隐式的动作和隐式的动力学。于是,我们砍掉了推理时的视频预测,发现效果不受影响,但推理速度提升了 5 倍。现在,我们可以在消费级显卡上运行 5~10 亿参数的 WAM,这对部署有巨大实用价值。这也是我们在该技术方向做出的重要贡献。

本月初,我们在 VLA 方向上也迎来突破,就是我们正式发布的 G0.5 基础模型:“从后训练到零样本泛化”。过去,VLA 模型虽强大,但要解决具体任务仍需针对场景采集数据进行后训练。但在 G0.5 中,我们发现当模型充分预训练后,推理时可以直接使用,无需后训练,部署时只需自然语言指令,机器人就会照做。

比如人类给出复杂语言指令,比如“轻轻地放”“抓住把手往上抬再抽出来”“把东西倒进电饭锅,没倒干净就再用力”……机器人都能准确执行。这些场景是我们数据采集时从未去过的地方。我们自己也惊讶,仿佛看到了未来——机器人 agent 能基于原子指令组合,完成更复杂、更长时间的任务。

同时,经过少样本训练后,G0.5 能完成物品分拣、鞋子配对、袜子配对等复杂任务。

那么 G0.5 用了什么技术?当前 VLA 主流框架是基于 π0 或类似架构——将一个现有的 VLA 加一个 Action Expert。VLA 的部分使用自回归的方法进行训练,Action Expert 则用扩散模型进行训练,两者拼接实现任务闭环。但我个人对这种“狗尾续貂”的结构有些疑虑。大语言模型只用一套 Decoder、一套参数、一个自回归损失,就能训练所有文本。多模态领域是否也能统一?G0.5 就是我们的一次重要尝试。

我们把语言、图像、思维链和动作全部离散化,把它们放入同一个数据流里,就像语言模型把所有文本放在一起,然后输入一个纯解码器模型。所有模态统一用自回归损失训练,真正简化并统一了训练方法。训练后,模型实现了“边想边干”——输入观测图像,在数据流中生成思考(任务分解、目标定位、2D轨迹规划),最后输出动作 Token。整个框架非常优美,且表现远超拼接模型。我们在七大国际权威机器人评测基准上全面超越 SOTA。

今天,我邀请所有开发者和学术同仁来尝试使用 G0.5——我们会将模型权重和代码全面开源。常见机器人如 SO-100、Franka Emika 等可开箱即用;自有机器人也只需少量数据就能测试效果。

展望未来,我们会在作业智能方向持续发力,向 G0.7 和 G1.0 努力。G0.7 将扩大泛化边界,面向更多物体、场景、指令和动作组合,提升开放环境下的稳定性和恢复能力。G1.0 将是通用作业智能体,统一操作、规划、记忆、反馈,应对长时间尺度和真实作业流程。

最近常有投资人和学术朋友问我:你们既做 WAM 又做 VLA,是两条路线吗?哪个更有机会成功?我的答案是——VLA 和 WAM 各有长处。VLA 擅长语义,赋予机器人“语义智能”;WAM 更擅长物理世界,尤其视觉物理,赋予机器人“物理智能”。最终它们会融合统一,我们希望在 G0.7 或 G1.0 发布时,能呈现我们自己的答案。

进化智能:让机器人超越人类身体的限制

最后,我讲讲进化智能。我坚信 AI 可以真正的重塑我们的物理世界,让机器人真正拥有超越人类身体限制的能力,我们称为进化智能。回头看,人类的进化——从四足行走到直立行走,解放双手用于操作经历了上万年。但今天,我们拥有强大的机电设计能力和AI训练能力,能否反向定义机器人的身体?让人形机器人只是具身智能的中间形态,而非最终目标。

我们希望在接下来的时间里,从研究人形机器人到研究超人机器人,即从 Humanoid 走向 Superhuman。当我们面对新场景时,可以根据任务目标,通过AI训练,不仅把梯度反传回策略模型,也反传到机器人构型参数——关节数量、肢体长度、扭矩、质量等。最终,在最小成本下实现最大化生产力价值。

这是我们研究具身智能的重要使命:过去我们做了大量模仿人的工作,接下来要成为机器人的“造物主”。进化智能的最终结果是“一脑多形”——一个通用的大脑,适配多种身体形态。

总结

最后,总结一下星海图的技术路线和展望:从本体智能控制机器人的全身每个关节,实现复杂的动作能力,到作业智能进入到真正的场景里产生生产价值,最后到进化智能,通过 AI 的方法改变机器人的本体结构和构形,实现真正价值闭环。

这三层技术形成一个持续进化的闭环:模型越强,泛化越好,进入更多场景,产生更多高质量数据,进而优化身体形态,产生更大工作价值。

希望我们共同努力,让具身智能真正为人类创造巨大价值。

谢谢大家!

声明:以上信息仅代表发布者自身观点,并不代表本平台赞同其观点,也不代表本平台对其真实性负责。
评论 0
网友评论仅供其表达个人看法,并不表明平台立场。
全部评论
懂能帝AI助手
服务商入驻
服务商入驻
资讯投稿
资讯发布
视频发布
视频发布
在线客服
平台客服