踹了OpenAI后,Figure光速发布具身大模型Helix,能力前所未有、创多项第一

2025-02-21 发布 · 浏览23次 · 点赞0次 · 收藏0次

本地 GPU 运行,7B 系统 2 模型 + 80M 系统 1 模型,可多机器人共用「大脑」。

在 2 月份突然宣布终结与 OpenAI 合作之后,知名机器人初创公司 Figure AI 在本周四晚公开了背后的原因:他们已经造出了自己的通用具身智能模型 Helix。

图片

Helix 是一个通用的视觉 - 语言 - 动作(VLA)模型,它统一了感知、语言理解和学习控制,以克服机器人技术中的多个长期挑战。

Helix 创造了多项第一:

  • 全身控制:它是历史上第一个类人机器人上半身的高速连续控制 VLA 模型,覆盖手腕、躯干、头部和单个手指;

  • 多机器人协作:可以两台机器人用一个模型控制协作,完成前所未见的任务; 

  • 抓取任何物品:可以捡起任何小型物体,包括数千种它们从未遇到过的物品,只需遵循自然语言指令即可;

  • 单一神经网络:Helix 使用一组神经网络权重来学习所有行为 —— 抓取和放置物品、使用抽屉和冰箱、以及跨机器人交互 —— 无需任何任务特定的微调;

  • 本地化:Helix 是史上第一个在本地 GPU 运行的机器人 VLA 模型,已经具备了商业化落地能力。

在智能驾驶领域,今年各家车厂都在推进端到端技术的大规模落地,如今 VLA 驱动的机器人也已进入了商业化的倒计时,如此看来 Helix 可谓是具身智能的一次重大突破。

                                一组 Helix 神经网络权重同时在两个机器人上运行,它们协同工作,将从未见过的杂货物品收纳起来。

人形机器人技术的新扩展

Figure 表示,家庭环境是机器人技术面临的最大挑战。与受控的工业环境不同,家庭中充满了无数非规则物体,如易碎的玻璃器皿、皱巴巴的衣物、散落的玩具,每件物品的形状、大小、颜色和质地都难以预测。为了让机器人在家庭中发挥作用,它们需要能够按需生成智能的新行为。

当前的机器人技术无法扩展到家庭环境中 —— 目前,即使教机器人一个单一的新行为,也需要大量的人力投入。要么需要数小时的博士级专家手动编程,要么需要数千次的演示,这两种方法的成本都高得令人望而却步。

图片

图 1:不同方法获取新机器人技能的扩展曲线。在传统的启发式操作中,技能的增长依赖于专家手动编写脚本。在传统机器人模仿学习中,技能的扩展依赖于收集的数据。而通过 Helix,新技能可以通过语言即时指定。

当前,人工智能的其他领域已经掌握了这种即时泛化的能力。如果能简单地将视觉 - 语言模型(VLM)中捕获的丰富语义知识直接转化为机器人动作,或许会实现技术突破。

这种新能力将从根本上改变机器人技术的扩展轨迹(图 1)。于是,关键问题变成了:如何从 VLM 中提取所有这些常识性知识,并将其转化为可泛化的机器人控制?Figure 构建了 Helix 来弥合这一差距。

图片

Helix:首个机器人系统 1 + 系统 2 VLA 模型

Helix 是机器人领域上首创的「系统 1 + 系统 2」VLA 模型,用于高速、灵巧地控制整个人形机器人上半身。

Figure 表示,先前的方法面临一个根本性的权衡:VLM 主干是通用的,但速度不快,而机器人视觉运动策略是快速的,但不够通用。Helix 通过两个互补的系统解决了这一权衡,这两个系统经过端到端的训练,可以进行通信:

  • 系统 1 (S1):一种快速反应的视觉运动策略,可将 S2 产生的潜在语义表征转换为 200 Hz 的精确连续机器人动作;

  • 系统 2 (S2):一个机载互联网预训练的 VLM,以 7-9 Hz 运行,用于场景理解和语言理解,实现跨物体和上下文的广泛泛化。

这种解耦架构允许每个系统在其最佳时间尺度上运行。S2 可以「慢慢思考」高层次目标,而 S1 可以「快速思考」机器人实时执行和调整的动作。例如,在协作行为中(见下图),S1 可以快速适应伙伴机器人不断变化的动作,同时保持 S2 的语义目标。

图片                             Helix 能让机器人快速进行精细的运动调整,这是在执行新语义目标时对协作伙伴做出反应所必需的。

Helix 的设计相较于现有方法具有以下几个关键优势:

  • 速度与泛化能力:Helix 在速度上与专门用于单一任务的行为克隆策略相当,同时能够零样本泛化到数千种新测试对象上;

  • 可扩展性:Helix 直接输出高维动作空间的连续控制,避免了之前 VLA 方法中使用的复杂动作标记化方案。这些方案在低维控制设置(例如二值化平行夹爪)中取得了一些成功,但在高维人形控制中面临扩展挑战;

  • 架构简洁性:Helix 使用标准架构 —— 一个开源的、开放权重的 VLM 用于系统 2,以及一个简单的基于 Transformer 的视觉运动策略用于系统 1;

  • 关注点分离:将 S1 和 S2 解耦使我们能够分别迭代每个系统,而无需受限于寻找统一的观察空间或动作表示。

Figure 介绍了部分模型及训练细节,其收集了一个高质量、多机器人、多操作员的多样化遥操作行为数据集,总计约 500 小时。为了生成自然语言条件下的训练对,工程人员使用了一个自动标注的视觉语言模型(VLM)来生成事后指令。

该 VLM 会处理来自机器人机载摄像头的分段视频片段,并提示:「你会给机器人什么指令以使其执行视频中看到的动作?」训练期间处理的所有物品在评估中被排除,以防止数据污染。

模型架构

Helix 系统主要由两个主要组件组成:S2,一个 VLM 骨干网络;S1,一个潜在条件视觉运动 Transformer。

S2 基于一个 70 亿参数的开源、开放权重的 VLM 构建,该 VLM 在互联网规模数据上进行了预训练。它处理单目机器人图像和机器人状态信息(包括手腕姿态和手指位置),并将它们投影到视觉语言嵌入空间中。结合指定期望行为的自然语言指令,S2 将所有语义任务相关信息提炼为一个连续的潜在向量,传递给 S1 以调节其低级动作。

S1 是一个 8000 万参数的交叉注意力编码器 - 解码器 Transformer,负责低级控制。它依赖于一个完全卷积的多尺度视觉骨干网络进行视觉处理,该网络完全在模拟环境中进行预训练初始化。虽然 S1 接收与 S2 相同的图像和状态输入,但它以更高的频率处理这些输入,以实现更灵敏的闭环控制。来自 S2 的潜在向量被投影到 S1 的标记空间中,并与 S1 视觉骨干网络提取的视觉特征沿序列维度连接,提供任务条件。

在工作时,S1 以 200 赫兹的频率输出完整的上半身人形控制,包括期望的手腕姿态、手指屈曲和外展控制,以及躯干和头部方向目标。Figure 在动作空间中附加了一个合成的「任务完成百分比」动作,使 Helix 能够预测自身的终止条件,从而更容易对多个学习到的行为进行排序。

训练

Helix 的训练是完全端到端的:从原始像素和文本命令映射到具有标准回归损失的连续动作。

梯度的反向传播路径是通过用于调节 S1 行为的隐通信向量从 S1 到 S2,从而允许对这两个组件进行联合优化。

Helix 不需要针对具体某某任务进行调整;它只需维持单个训练阶段和一组神经网络权重,无需单独的动作头或针对每个任务的微调阶段。

在训练期间,他们还会在 S1 和 S2 输入之间添加一个时间偏移量。此偏移量经过校准以匹配 S1 和 S2 部署的推理延迟之间的差距,确保部署期间的实时控制要求准确反映在训练中。

经过优化的流式推理

Helix 的训练设计可实现在 Figure 机器人上高效地并行部署模型,每台机器人都配备了双低功耗嵌入式 GPU。推理管道分为 S2(高级隐规划)和 S1(低级控制)模型,每个模型都在专用 GPU 上运行。

S2 作为异步后台进程运行,用于处理最新的观察结果(机载摄像头和机器人状态)和自然语言命令。它不断更新编码高级行为意图的共享内存隐向量。

S1 作为单独的实时进程执行,其目标是维持让整个上身动作平滑执行所需的关键 200Hz 控制回路。它的输入是最新的观察结果和最新的 S2 隐向量。由于 S2 和 S1 推理之间存在固有的速度差异,因此 S1 自然会在机器人观察上以更高的时间分辨率运行,从而为反应控制创建更紧密的反馈回路。

这种部署策略有意反映了训练中引入的时间偏移量,从而可最大限度地减少训练推理分布差距。这种异步执行模型允许两个进程以各自最佳频率运行,使 Helix 的运行速度能与最快的单任务模仿学习策略一样快。

有趣的是,在 Figure 发布 Helix 之后,清华大学博士生 Yanjiang Guo 表示其技术思路与他们的一篇 CoRL 2024 论文颇为相似,感兴趣的读者也可参照阅读。

图片

论文地址:https://arxiv.org/abs/2410.05273

结果

细粒度 VLA 全上身控制

Helix 能以 200Hz 的频率协调 35 自由度的动作空间,控制从单个手指运动到末端执行器轨迹、头部注视和躯干姿势等一切。

头部和躯干控制具有独特的挑战 —— 当头部和躯干移动时,会改变机器人可以触及的范围和可以看到的范围,从而产生反馈回路,过去这种反馈回路会导致不稳定。

视频 3 演示了这种协调的实际操作:机器人用头部平稳地跟踪双手,同时调整躯干以获得最佳触及范围,同时保持精确的手指控制以进行抓握。在此之前,在如此高维的动作空间中实现这种精度水平是很难的,即使对于单个且已知的任务也是如此。Figure 公司表示,之前还没有 VLA 系统能够表现出这种程度的实时协调,同时保持跨任务和物体泛化的能力。

图片                             Helix 的 VLA 能控制整个人形机器人上半身,这是机器人学习领域首个做到一点的模型。

零样本多机器人协同

Figure 表示,他们在一个高难度多智能体操作场景中将 Helix 推向极限:两台 Figure 机器人协作实现零样本杂货存放。

视频 1 展示了两个基本进步:两台机器人成功地操作了全新的货物(训练期间从未遇到过的物品),展示了对各种形状、大小和材料的稳健泛化。

此外,两个机器人都使用相同的 Helix 模型权重进行操作,无需进行特定于具体机器人的训练或明确的角色分配。它们的协同是通过自然语言提示词实现的,例如「将一袋饼干递给你右边的机器人」或「从你左边的机器人那里接过一袋饼干并将其放在打开的抽屉里」(参见视频 4)。这是首次使用 VLA 展示多台机器人之间灵活、扩展的协作操作。考虑到它们成功处理了全新的物体,这项成就就显得尤其显著了。

图片

                               Helix 实现精确的多机器人协同

涌现出「拿起任何东西」能力

图片

图片

只需一个「拿起 [X]」指令,配备了 Helix 的 Figure 机器人基本就能拿起任何小型家用物品。在系统性测试中,无需任何事先演示或自定义编程,机器人就成功地处理了杂乱摆放的数千件新物品 —— 从玻璃器皿和玩具到工具和衣服。

特别值得注意的是,Helix 可以建立互联网规模的语言理解和精确的机器人控制之间的联系。例如,当被提示「拿起沙漠物品」时,Helix 不仅能确定出玩具仙人掌与这个抽象概念相匹配,还能选择最近的手并能通过精确运动命令安全地抓起它。

Figure 公司表示:「对于在非结构化环境中部署人形机器人,这种通用的『语言到动作』抓取能力开辟了令人兴奋的新可能。」

图片

                             Helix 可将「拿起 [X]」等高层面指令转译成低层动作。

讨论

Helix 的训练效率很高

Helix 以极少的资源实现了强大的物体泛化。Figure 公司表示:「我们总共使用了约 500 小时的高质量监督数据来训练 Helix,这仅仅是之前收集的 VLA 数据集的一小部分(<5%),并且不依赖多机器人具身收集或多个训练阶段。」他们注意到,这种收集规模更接近现代单任务模仿学习数据集。尽管数据要求相对较小,但 Helix 可以扩展到更具挑战性的动作空间,即完整的上身人形控制,具有高速率、高维度的输出。

单一权重集

现有的 VLA 系统通常需要专门的微调或专用的动作头来优化执行不同高级行为的性能。值得注意的是,Helix 仅使用一组神经网络权重(系统 2 为 7B、系统 1 为 80M),就可以完成在各种容器中拾取和放置物品、操作抽屉和冰箱、协调灵巧的多机器人交接以及操纵数千个新物体等动作。

图片

                          「拿起 Helix」(Helix 意为螺旋)

总结

Helix 是首个通过自然语言直接控制整个人形机器人上半身的「视觉 - 语言 - 动作」模型。与早期的机器人系统不同,Helix 能够即时生成长视界、协作、灵巧的操作,而无需任何特定于任务的演示或大量的手动编程。

Helix 表现出了强大的对象泛化能力,能够拿起数千种形状、大小、颜色和材料特性各异的新奇家居用品,并且这些物品在训练中从未遇到过,只需用自然语言命令即可。该公司表示:「这代表了 Figure 在扩展人形机器人行为方面迈出了变革性的一步 —— 我们相信,随着我们的机器人越来越多地协助日常家庭环境,这一步将至关重要。」

虽然这些早期结果确实令人兴奋,但总体来说,我们上面看到的还都属于概念验证,只是展示了可能性。真正的变革将发生在能大规模实际部署 Helix 的时候。期待那一天早些到来!

最后顺带一提,Figure 的发布可能只是今年具身智能众多突破的一小步。今天凌晨,1X 机器人也官宣即将推出新品。

图片

参考内容:

https://www.figure.ai/news/helix

https://techcrunch.com/2025/02/20/figures-humanoid-robot-takes-voice-orders-to-help-around-the-house/

https://x.com/op7418/status/1892612512547213312

https://x.com/ericjang11/status/1892665299704422667

https://news.ycombinator.com/item?id=43115079

踹了OpenAI后,Figure光速发布具身大模型Helix,能力前所未有、创多项第一 - AI 资讯 - 资讯 - AI 中文社区

声明:本文转载自机器之心,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里。本站拥有对此声明的最终解释权。如涉及作品内容、版权和其它问题,请联系我们删除,我方收到通知后第一时间删除内容。

点赞(0) 收藏(0)
0条评论
珍惜第一个评论,它能得到比较好的回应。
评论

游客
登录后再评论
  • 鸟过留鸣,人过留评。
  • 和谐社区,和谐点评。