30人团队震撼英伟达!Jim Fan自曝三个教训,重押世界模型
【导读】AI终极挑战——物理图灵测试。这一年,英伟达Jim Fan领导的GEAR实验室,正用一套完整的技术栈,向这堵高墙发起总攻。
机器人「物理图灵测试」距离真正通关,还需一段时间。
英文达杰出科学家Jim Fan表示,我正全身心投入一个单一使命:为机器人解决「Physical Turing Test」(物理图灵测试)。
这是AI的下一个挑战,甚至可能是「终极挑战」。

如今,人类光靠文本字符串实现的超级智能,恐怕就已经能拿到诺贝尔奖了。
不过机器人现在,连黑猩猩级灵活度、操作能力都还没有。
「莫拉维克悖论」(Moravec's paradox)是一种必须被打破的诅咒,是一堵必须被撕碎的高墙。
没有任何东西,应该阻挡人类在这个星球上实现指数级的物理生产力,甚至有朝一日,把这种能力带到其他星球。
这一年,Jim Fan带队在英伟达创立了GEAR实验室,30人团队已初具规模。
令人震撼的是,团队的产出和影响力,远远超过它的规模。
从基础模型、世界模型、具身推理、仿真、全身控制,以及各种形态RL,几乎囊括了机器人学习的完整技术栈。

接下来,一起看看GEAR 2025年。
GR00T基础模型,一年三代
GR00T是英伟达提出的「通用机器人基础模型体系」,核心目标——
让机器人像「大模型」一样,具备跨任务、跨场景、可迁移、可学习的能力。
GR00T VLA基础模型,是最具代表性的成果之一。
它将视觉+语言+动作三种模态,统一到一个端到端的模型中,让机器人能够看懂环境、理解人类指令,生成可转型的连续动作。
这一年,英伟达对GR00T VLA进行了高频迭代:
今年3月开源了N1,紧接着6月发布了N1.5,12月又推出了N1.6。
GR00T N1
3月,GR00T N1开源首发,仅用20亿参数,即可验证VLA架构在真实机器人任务中的可行性。

它的开源,为整个机器人生态系统提供了一个前沿的基础模型。

GROOT N1可以轻松在上见任务中进行泛化,或执行需要长上下文和多种通用技能组合的多步骤任务。
比如,抓取、用一只手臂/两只手臂移动物体,以及在两个手臂之间传递物品。

GR00T N1.5
GR00T N1.5是N1的升级版,在架构、数据、建模层面进行了多重优化。
它使用了更领先的视觉语言模型——Eagle VLM,提升了语言理解和视觉感知力。
还加了FLARE损失,提高了对未来动作预测的一致性。
在仿真机器人基准任务中,GR00T N1.5成功率明显由于上一代模型。

GR00T N1.6
这个月迭代后的GR00T N1.6,集成了更强的架构和推理能力,让机器人在复杂环境中表现更智能、更稳健。

GR00T Dreams:机器人「做梦」学习
视频世界模型,是数据驱动的物理和图形引擎。
DreamGen,是一种利用AI视频世界模型,来生成合成训练数据的机器人学习框架。

它通过「数字梦境」生成大量虚拟机器人行为,再从视频中提取动作数据,用于训练机器人策略,从而实现新任务和新环境中的泛化学习。
实验验证了,机器人从只有一个动作示例的场景中,通过「梦境」生成数据,在新任务上有很高的成功率。

在10个新环境+22种新行为上,机器人都能泛化成功。
SONIC:让机器人具备「通用运动能力」
为了让机器人不仅只会做某个动作,而具备几乎所有人类可以做的动作。
英伟达团队提出的SONIC,一个用于人形机器人控制的通用运动系统。
它的核心目标是,让人形机器人像「角色」一样被控制、学习和驱动。

SONIC出发点很明确,运动追踪是人形机器人可扩展基础任务。
只要机器人能够稳定、准确跟踪任意人类动作,那么行走、转身、抬手、抓取、协调全身运动等复杂行为,都可以统一到同一个框架中。
论文中,团队将运动追踪任务进行了「超大规模化」(Supersize),即9000+GPU小时,以及超1亿动作帧,覆盖了机器丰富的人体动作分布。
这让SONIC学会了人类运行的整体结构,而且,研究人员还基于SONIC构建了多种控制与交互方式。

SONIC的探索,为通用人形机器人提供了一个可扩展、可编程、可落地的运动基础系统。
其他重磅成果
除了以上一些重磅成果,团队还在面向VLA强化学习后训练上,以及sim2real的RL实践做出了探索。
比如PLD(Probe, Learn, Distill),让机器人从失败中「自我进化」。
它是一套真实世界「自举式学习」的训练范式。
一般来说,机器人在真实环境中,执行高精度操作任务时,或失败、会偏移,都成为了一种信号。

PLD引入了真实世界残差强化学习(Residual Reinforcement Learning),不推翻原有策略,而在已学会动作基础上,学习「微调残差」,专门负责纠错、恢复、补偿。
最后,它将真实世界中学到的改进经验,蒸馏回VLA主模型,使用SFT,将临场学到的技巧变成长期能力。
对此,Jim Fan表示RL能够通过后训练VLA模型,在高精度任务(如GPU插入)中实现接近100%的鲁棒性。
这是解决工业部署「最后一公里」难题的关键进展。

VIRAL(Visual Sim-to-Real at Scale)是一套纯视觉人形机器人Sim-to-Real框架,为了解决一个长期难题——
让机器人在真实世界中,零样本完成「走+站+操作」连续长时任务。
研究在Unitree G1人形机器人上,验证了最长54次连续loco-manipulation循环,没有任何真实世界微调,仅使用RGB纯视觉输入。

另外,DoorMan是英伟达首个仅用RGB视觉、完全在仿真中训练、可零样本迁移到真实世界的人形机器人「开门」策略。
它在复杂的行走+操作+物体交互任务上,性能甚至超越人类遥操员。
「开门」是人形机器人最难的任务之一,因为它同时包含行走、精细操作等任务的重叠。
以往的方法,要么依赖特权状态(即力、位姿),要么真实数据昂贵、不可规模化。
而DoorMan诞生后,仅用了RGB,相同控制线,就让仿真直出真实世界。

此外,还有FLARE全新算法, 是一种隐式世界模型的策略,核心思想是预测「未来对动作有用的表示」。

它不会去预测未来的像素,而是预测对动作有用的未来潜变量,让机器人在不断增加推理开销的情况下,学会提前想一想。

在训练中,FLARE在一个标准VLA策略模型中,引入了未来token——在Transformer中额外加入少量学习token。
实验结果显示,在4个真实操作任务,每个任务100条轨迹,GR-1平均成功率在95.1%。




左右滑动查看
三个教训,重注「视频世界模型」
这一年,所有人几乎都在为「氛围编程」(vibe coding)感到震惊。
休假这几天,Jim Fan还分享了对机器人这个蛮荒又混乱的西部世界的焦虑——
我在2025年学到的三个教训
1. 硬件跑在软件前面,但硬件的可靠性,严重卡住了软件的迭代速度
我们已经看到了,许多堪称艺术品的工程成果,比如Optimus、e-Atlas、Figure、Neo、G1等等。
最强的AI还远远没有把这些前沿硬件的潜力榨干。
机器人的「身体」能做到的事情,明显多于它的「大脑」目前能指挥的范围。
但问题在于,照看这些机器人往往需要一整支团队全天候盯着。
和人类不一样,机器人不会自己从磕碰中恢复。过热、马达损坏、各种诡异的固件问题,几乎每天都在折磨工程师。犯错是不可逆的,而且一点都不留情。
到头来,唯一真正能规模化的,只有我的耐心。
2.机器人领域的基准测试,依然是一场史诗级灾难
在大语言模型圈子里,很多人已经把MMLU和SWE-Bench当成常识了。
机器人这边?先把手里的啤酒端稳。几乎没有任何共识:用什么硬件平台、怎么定义任务、评分标准是什么、用哪种仿真器,或者真实世界要怎么搭。
结果就是——每个人在自己临时为每次新闻发布现编的基准上,按定义都是SOTA。
每个人都会从100次重试里,挑一个最好看的demo拿出来秀。
2026年,我们这个领域必须做得更好,别再把可复现性和科学严谨性当成「二等公民」。
3. 基于VLM的VLA,总感觉哪里不对
VLA指的是「视觉-语言-动作」(vision-language-action)模型,这是当前机器人「大脑」的主流路线。
套路也很简单:拿一个预训练好的VLM checkpoint(模型权重),在上面嫁接一个动作模块。
但仔细想想就会发现,VLM本身是被高度优化来刷诸如视觉问答这类基准的。
这直接带来了两个问题:
(1) VLM里的大多数参数,其实都服务于语言和知识,而不是物理世界;
(2) 视觉编码器被刻意训练去丢弃底层细节,因为问答任务只需要高层语义理解。但在机器人灵巧操作中,恰恰是这些细微细节最要命。
VLA的性能并没有任何必然理由会随着VLM参数规模一起提升。
问题在于,预训练目标本身就是错位的。相比之下,以视频世界模型作为预训练目标,看起来要合理得多。我已经在这条路线上下了重注。

有网友反问道,如果说世界模型是更优的预训练目标,但当前主流模型仍基于VLM构建并产出实际成果,而世界模型却主要用于策略评估和合成数据,而非直接控制?
Jim Fan称,它们都是2025年的模型,期待2026年下一个重大突破。

物理图灵测试,还有多远?
今年,在红杉资本一场闭门演讲中,Jim Fan首次引入了「物理图灵测试」概念。
短短20分钟视频,他生动有趣地介绍了当下具身智能的困局,大规模仿真如何挽救机器人未来,以及英伟达具身智能的路线图。

那究竟什么是「物理图灵测试」?
一场周末party让家里乱的一团糟(左),有人替你收拾了一切,还为你和伴侣准备了烛光晚餐(右)。
当你回家后看到一切,根本无法辨别这是人类的作品,还是机器的作品——这便是物理图灵测试核心想法。


那么,人类现在走到哪一步了?离这个目标还有多远?
三个生动的例子,让人爆笑全场。不得不承认,这就是当前具身智能的现实。



左右滑动查看
Jim Fan表示,Ilya曾说过预训练终结了,同时AI「石油」互联网数据几乎枯竭。
但若要和机器人领域数据相比,搞LLM的研究者就会明白有多么得天独厚了。

在英伟达,团队让机器人实操去收集数据,机器人关节控制信号,且数值随时间持续变化。
任何人无法从互联网上获取,必须通过自己收集才能完成。

他们具体是如何操作的?
其中,离不开一个重要的方式——遥操。它能够识别人手姿态并流式传输给机器人系统。

通过这种方式,可以教机器人从面包机中拿起面包,然后在上面淋上蜂蜜。
可以想象的到,这是一个非常缓慢极其痛苦的过程。
在Jim Fan看来,如果将真实数据收集放在坐标轴中展示,它根本无法实现Scaling Law。
如何去打破这一困境,为机器人创造「无限能源」?

英伟达给出了一个更直接的解决方案——虚拟世界。
在仿真世界中,可以以1万倍于现实的速度训练,并通过「域随机化」(Domain Randomization)增强泛化能力。
也就意味着,系统在仿真中学会的任务,最终零样本迁移到真实世界。


接下来,Jim Fan提出了仿真世界模拟的三个阶段——
Simulation 1.0(数字孪生)
它需要精确建模机器人与物理环境,优点在于快、可控、可迁移,而缺点是构建成本高,强依赖人工建模。
Simulation 1.5(数字表亲)
大量3D资产、场景、纹理由模型自动生成,仍结合传统物理引擎,在真实与仿真之间取得工程上「足够接近」。
Simulation 2.0(神经物理引擎)
可利用视频扩散模型,直接生成「可交互的未来」,不再显示建模物理规则。
它的优势在于,能处理软体、液体等复杂物理,通过语言生成「反事实世界」。
Jim Fan还将其称之为「数字游牧者」(Digital Nomad)。

再回到当初这张坐标图,机器人数据Scaling Law很好地呈现了出来。

最终,所有这些数据流入了一个统一的模型,即VLA——输入:语言+视觉,输出:动作控制。
也就是如上提到了GR00T系VLA基础模型,从N1,到N1.5,再到N1.6三个版本不断升级迭代。
最后,Jim Fan指出物理AI的未来,不只是更聪明的机器人,而是一种新基础设施。
比如Physical API、物理APP Store,让技能可以像软件一样被分发到机器人系统中。
几天前,谷歌大佬Logan Kilpatrick预测,2026年将成为具身AI的重要一年。

用不了不久,我们将在现实世界中看到更多的机器人。
参考资料:
https://x.com/DrJimFan/status/2003879965369290797?s=20
https://www.youtube.com/watch?v=_2NijXqBESI
秒追ASI
⭐点赞、转发、在看一键三连⭐
点亮星标,锁定极速推送!
声明:本文转载自新智元,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里。
游客
- 鸟过留鸣,人过留评。
- 和谐社区,和谐点评。
AI 中文社