300美元跑通世界模型!比老黄便宜10倍
【导读】世界模型第一次塞进指甲盖芯片!X-Era Lab与星宸科技联手,成本砍掉90%,具身智能终于不靠云端活了。
风筝和鸟,都能飞翔。
但风筝长不出方向,是远处的手借风借线,决定它自由或回落;而鸟却长在自己的翅膀上,俯冲与停栖都来自大脑意志,无需指令。
过去的具身智能像风筝:越飞越高,却被「延迟」系在云端,现实里一只倾倒的杯子、一场骤雨就让它崩乱,风会乱,线会断,真实世界等不起信号往返云端。
X-Era Lab(拓元智慧)和星宸科技最近做成的一件事,正是把风筝变成鸟——
他们把自研的世界动作模型 VWA,跑进了一颗指甲盖大小的端侧芯片,完成了「感知—预测—控制」的全链路闭环。
这次,他们剪断了那根线,让具身智能第一次,飞在自己的翅膀上。

X-Era Lab 与星宸科技联合推出的首款端侧世界模型解决方案
把「大脑」真正装回身体
一个产品最原始的出发点,决定了它后来所有的形状,也决定了它日后会在哪里走形。
一件事如果同时背着「炫技」「拿融资」「赶风口」太多目的,就会从「为用户解决真问题」,悄悄变成「替团队完成一场表演」。
动作开始替老板做、替发布会做,而不再替那只要去抓住正在倾倒的杯子的手做。
而 X-Era Lab 把发心收敛到了一件事上:做全球第一个原生的世界动作模型。
说穿了很朴素,如果不能稳稳托住现实生活里的一只杯子,再酷炫的 PPT 又有什么用。
所以它从第一天就认定,推理这件事,必须发生在机器人本体上。
具身智能的上半场,比的是谁的模型更大。
下半场要回答的,是另一个更朴素的问题:谁能把「大脑」真正装回身体,让它在真实世界里跑起来,并且足够便宜地跑起来。
世界模型必须走到端侧
把模型放云端、机器人传画面回来等指令,这套链路在大模型时代很顺手,可一进物理世界就处处碰壁。
说到底,那根「线」还在。
这个道理几乎人人都懂。自动驾驶不能只靠云端决策,肉眼看见的绿灯,等画面传上云、决策再传回来,可能已经变成了红灯。
云端能告诉你「世界长什么样」,却赶不上回答「此刻该怎么办」。
工业场景里,亚毫米级的精密放置,机械臂的容错只有零点几毫米,决策一滞后,物体就被推过了头。
家庭场景同样如此,一个几十公斤的机器人,若对人的状态判断慢了半拍,一个抬手就可能伤到人。
在物理世界里,迟到的正确,约等于错误。
而在带宽上,世界模型同样需要本地处理。
大语言模型往云端传的是文本,带宽要求很低;可世界模型要「理解世界」,一旦是多传感器、多模态融合输入,上行带宽会急剧膨胀。
在 X-Era Lab 研发总监蒲韬看来,这正决定了两类模型的命运:大语言模型可以留在云端,世界模型必然走向端侧。文字可以打包托运,而世界,太重了,传不动。

依托端侧芯片把世界模型从云端搬到智能体上
现阶段云端方案大多以 Token 使用量作为收费标准。
然而理解物理空间所需要的 Token 用量远超现在的大语言模型所需,这使得具身智能商业化迟迟无法落地。
一台机器人卖二十万,不便宜,但一算账才发现,反而是其整个生命周期中需要消耗的 Token 更有可能是个天文数字,谁都不敢保证上限在哪。
这导致厂商看不到利润空间,客户估不准落地成本。而一个算不清账的商业模型,没有人敢真的下场。
X-Era Lab 的 CTO 陈添水觉得,国内硬件几乎都是一次性买断,极少订阅制能成立,原因正在于此。把模型放到端侧,这笔账才变成确定的:芯片装上去,怎么用都是那个成本。
隐私问题也在把世界模型推向端侧。Token 承载的隐私信息相对有限,但「理解世界」要持续处理大量视觉与空间信息,家里长什么样、生产线在做什么,这些远比一段文本敏感。
一旦这些数据必须上传云端才能用,许多场景从一开始就不会向你敞开。把世界搬到云上的那一刻,很多扇门就已经关上了。
延迟和带宽,逼着世界模型往端侧走;成本和隐私,决定它走到端侧之后生意能不能做。前者是物理约束,后者是商业约束,两股力气,把答案推向同一个方向。
对世界模型来说,走向端侧不是一道选择题,而是一道必答题;而它们共同指向的那个词,是确定性。这正是 X-Era Lab 从第一天就选端侧的理由。
能塞进端侧的
是为端侧而生的模型
在市场上,相比友商 Thor-U 芯片动辄 3000 多美元的方案,他们想让世界模型跑在两三百美元的芯片上,但靠事后裁剪是塞不进去的,这个模型从娘胎里就为端侧而生。
要看清 VWA 的不同,得先看看别人怎么走。当下的「世界模型」,大多走两条路线。
一条是 VLA,建立在多模态大模型之上,加一个「动作专家」做改造;一条是以视频生成模型做内核,用 2D 表征渲染出 3D 世界。
VLA 的表征停留在语言模态——你问它面前的水瓶离自己多远,它能答「大概三十厘米」,但实际可能是十厘米,这是无法容忍的误差。
视频生成模型停在 2D 像素空间,对真实 3D 刻画不足,做动作前还要先生成视频,成本高,2D 到 3D 的误差层层累积。
一个把世界「说」出来,一个把世界「画」出来——可机器人要的,是把世界「算」出来。
X-Era Lab 的世界动作模型(VWA),绕开了两条路线面临的障碍。
据陈添水介绍,VWA 在底层架构上做了三件事:
1. 把物理与动作向量放进同一个 Token 内联合建模,再加上时序维度,共同构成 4D 数据;
2. 没有沿用现成的多模态大模型骨干,而是专门为几何与动作设计了预训练网络;
3. 让预训练和后训练的目标保持统一。别人是在后训练阶段、针对特定场景「打补丁」,而 VWA 在预训练阶段就把对物理世界的理解灌进了模型。
把三条路线摆在一起,差异其实落在同一个问题上:模型对「世界」的理解,到底停在哪一层?
VLA 停在语言层,所以它只能把物体的位置估个大概;视频生成式停在 2D 像素层,做动作前先得生成画面,3D 信息在这一步就漏掉了精度。

原生世界动作模型的 4D 表征
VWA 通过预测未来的 4D 世界来建模真实物理世界,也就是刻画 3D 空间随时间如何变化。
在这样统一的时空表征中,场景的深度结构、机器人的动作轨迹,以及交互过程中蕴含的接触、碰撞、形变等物理规律,都可以被放在同一套模型里联合学习。
不同于许多基于视频生成的世界模型,VWA 不把主要算力消耗在纹理、光影、背景等与动作决策弱相关的视觉细节上,而是绕过这些表象,直接建模三维几何和时序运动。
当模型学习点云如何位移、物体如何碰撞、形变如何发生时,它学到的不是「世界长什么样」,而是「世界会怎样变化」。
更关键的是,X-Era Lab 并不是把 4D 表征只当作后训练阶段的辅助工具,用来重建空间或合成数据;而是从预训练阶段就把 4D 作为统一底座,让物理理解、空间预测和动作生成落在同一套表征里联合学习。
换句话说,别人是在用 4D 补数据,VWA 是从一开始就长在 4D 上。
因此,VWA 能以更小模型完成更复杂任务,并不是靠后期裁剪或蒸馏硬挤出来的,而是因为它从源头减少了无效负担。
不需要背一个庞大的多模态大模型骨干,也不需要反复生成冗余视频画面。
它把参数和算力集中用在与机器人行动最相关的空间、时间和物理规律上。
这也是 VWA 同时具备端侧部署可行性和 Scaling Law 潜力的根本原因。

VWA 的每个物理 token 的预测都基于过往 N 个时刻所构成的 4D 表征
模型怎么「住」进芯片
模型再好,最终都要落到一颗具体的芯片上——能不能「住」得进去,才见真章。
这次的合作方是星宸科技,一家以图像信号处理、AI 处理器、音视频编解码为核心 IP 的上市公司,2025 年上半年机器人视觉 AI SoC 出货量已居全球第二。
视觉与 ISP 本就是它的老本行,而这恰恰是「理解世界」最需要的那只眼睛。
X-Era Lab 与星宸的合作一拍即合。它认为,在具身领域,软硬协同不是加分项,而是必选项。
而星宸恰好是那个愿意「协同」的芯片方。双方对「机器人的脑子要长在机器人身上」判断一致,星宸也在资本和内部资源上给予了支持。
更关键的是,这不是「模型做完了再找芯片」的接力,而是从模型训练的第一天,两边就坐在了一张桌子上。
世界模型表达的是连续的世界空间,与常见的离散压缩不同,普通离散量化会带来较大精度损失。
世界模型需要刻画连续变化的物理规律,而将模型压缩至 4 位极端精度,意味着用最离散的表示去逼近最连续的世界,本身就是一项极具挑战的课题。
为此团队与星宸科技展开深度合作,从底层工具链、算子实现到内存调度策略进行全栈联合优化,专门为 VWA 架构量身定制,让模型在端侧芯片上既能高效运行,又能精准还原物理世界的连续性与细节。
芯片侧也做了全面配合。
星宸 IPU 算力覆盖 0.1 Tops 到上千 Tops 全档位,按算力区间布局而非「一颗万能芯片打天下」;自研 StarShuttle 推理框架已迭代四次,支持多模态算法与 AWQ/GPTQ 量化;面向具身智能提供的是分布式计算架构。
它还针对 VWA 的独特算子做了芯片级优化,相比软件级,效率可提升上百乃至上千倍。
正是这种咬合,才让一颗成本可控的芯片,跑得起一个完整版的世界模型。
而且,星宸正在布局双目 3D 成像与 Lidar SoC(SS901XX 系列,探测 0.5 至 500 米及以上、精度 ±0.03 米),做的正是 3D 感知。
X-Era Lab 反复强调「理解 3D 物理世界」,芯片伙伴恰好在硬件层做 3D 感知。这场合作便不只是「芯片能跑模型」,而是感知与世界理解在物理层的咬合。
一个把世界看清,一个把世界想透,远比单纯的算力适配走得更深。
X-Era Lab 表示,星宸是目前性能与成本的最优选。
它还提供跨场景、跨芯片、可量产的统一软件底座,并以开放方式向行业释放能力,从 Comake 开发者社区、Comake Pi 开发板,到全栈 AI 工具链和开源模型库,构成「开发者赋能→产品化落地→生态规模放大」的正向飞轮。
换句话说,端侧从来不是一次性的单点合作,而是一个能不断接入新伙伴的底座。
星宸描绘过一个「多形态共存的机器人世界」:扫地的、陪伴的、清理泳池的、修剪草坪的、端茶的……不管四足的、还是两脚的。它们形态各异,却被同一句话框定,场景驱动,任务清晰。

原生世界动作模型部署在端侧 AI 芯片的丰富应用场景
回归
伟大的远征,最终都不是为了离开,而是为了有能力,回到最初要去的地方。
机器人最初被改造,是为了变得更聪明,大模型的浪潮将它的「脑」托举上云。
世界为它的聪明惊叹,几乎要忘了它原本是为了「做事」而生的。
一个只会思考、不能伸手的智能,想得再远,够不到那只正在倾倒的玻璃杯,便什么也改变不了。
X-Era Lab 与星宸今天合力做的,正是这桩关于「回归」的事。他们要把那个一度被放逐到云端的智能,重新唤回到指甲盖大小的身体里,让它的眼、它的算、它的决断,重新长在一处。
人类无数次畅想未来惊天动地的样子。但技术真正成熟的标志,往往是相反的——是它不再被谈论。
扫地机器人不再沿记忆里的路线死转,看见地上一摊水会先绕开,而不是扎进去推得满屋狼藉。
割草机器人开过被夜雨泡软的草地,知道这里会陷,便放慢绕行。
服务机器人端着热水穿过大堂,预判到那个正低头看手机、即将拐进它路线的人,提前停下。它算的不再是「前方半米有障碍」,而是「那个人下一步会走到哪」。
此刻,在厨房流理台边,一只机械臂去够那只半透明的玻璃杯。而杯子已经在往下滑。它收力、调角、托住。没有惊险的特写,没有该响起的配乐,事情只是平平淡淡地过去了。
今天没有人会赞叹电灯会亮、风扇会转;有朝一日,也不会有人再赞叹一台机器人「居然能自己想」。它只是安静地待在客厅的某个角落,把一件件小事做完,像它本就该在那里。
这是 X-Era Lab 和星宸想做的,一切的不可想象,终将化为寻常。
声明:本文转载自新智元,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里查看更多信息!
AI 中文社