3D领域DeepSeek「源神」启动!国产明星创业公司,一口气开源八大项目
2025 开年,DeepSeek-R1 的成功在全球掀起了一股开源风潮,上个月的开源周更是毫无保留地将自己的多项核心技术开放给了全球开发者。这种「完整技术栈」式的开源震撼了整个行业。
毫无疑问,开源正成为国内外大模型厂商的「战略共识」。从文本到视觉,从对话到推理,开源生态的繁荣正推动大模型技术快速迭代。在这一波生成式 AI 浪潮中,MiniMax、月之暗面等公司纷纷从应用层回归模型层,聚焦底层架构创新,而非仅依赖上层应用变现。这一趋势表明,模型本身的能力突破,而非单纯的产品包装,正成为行业竞争的核心。
在 3D 生成这一尚未被完全定义的领域,VAST 正以开源先锋的姿态重新划定行业标准。这家专注于 3D 生成赛道的公司,正通过自主研发打造面向三维内容创作的开源基础设施。
3 月 28 日,专注于构建通用 3D 大模型的 VAST 一口气开源了两个 3D 生成项目 ——TripoSG 和 TripoSF。前者是一款基础 3D 生成模型,在图像到 3D 生成任务上远超所有闭源模型;后者则是 VAST 新一代三维基础模型 TripoSF 能在所有闭源模型中同样取得 SOTA 的基础组件,用于高分辨率的三维重建和生成任务。
VAST 宣布,即日起,TripoSG 15 亿参数小模型(非 MoE 版本、在 2048 token 的潜空间上运行)的权重、推理代码和交互式演示 Demo 将通过 GitHub 和 Hugging Face 统统提供给 AI 社区。

Homepage:https://yg256li.github.io/TripoSG-Page/
论文 ArXiv:https://arxiv.org/abs/2502.06608
GitHub 代码:https://github.com/VAST-AI-Research/TripoSG
Hugging Face 模型权重:https://huggingface.co/VAST-AI/TripoSG
Hugging Face 演示:https://huggingface.co/spaces/VAST-AI/TripoSG
同时,TripoSF VAE 的预训练模型及相关的推理代码也同步开源。

Homepage:https://xianglonghe.github.io/TripoSF/
论文 ArXiv:https://arxiv.org/abs/2503.21732
GitHub 代码:https://github.com/VAST-AI-Research/TripoSF
Hugging Face 模型权重:https://huggingface.co/VAST-AI/TripoSF
这意味着,整个 3D AI 社区多了 SOTA 级基础模型,这将大大降低入门门槛和创作门槛,让开发者、创作者用上强大的 3D 生产力工具,并加速视觉特效(VFX)、游戏开发、具身智能、产品设计等 3D 场景的深度应用。
当然,VAST 的开源「野心」不止于此!
接下来一直到 4 月 18 日,他们还将继续开源另外一系列 3D 生成项目,涵盖了三维部件补全模型、通用三维模型绑定生成模型、三维几何精细化模型以及 SIGGRAPH Asia 2024 RTL 收录的交互式草图生三维模型。
再加上此前开源的单张图像生成 3D 场景模型 MIDI 以及多视角图像生成模型 MV-Adapter,从通用大模型到组件补全、骨骼绑定模型、再到 3D 模型的超分辨率等技术,一套从基础到细节的完整 3D AI 生成体系即将完全展示给全球社区。
MIDI 代码:https://github.com/VAST-AI-Research/MIDI-3D
MV-Adapter 代码:https://github.com/huanngzh/MV-Adapter
VAST 的 3D「开源月」干货满满,又一次让开源社区充满了期待。
TripoSG:MoE Transformer 开启高保真 3D 生成新范式
这两天,沉寂许久的 AI 生图再次火了起来。
谷歌和 OpenAI 先后上线唠嗑 P 图功能,社交平台上网友们疯狂整活,就连老板奥特曼的 X 头像都用 AI 换成了日漫风格。
AI 视频圈更是「跑马圈地」,各家模型隔三差五就上新一波。
同样地,3D 生成领域的进化速度也是突飞猛进,但是高质量 3D 内容的自动化生成仍面临诸多技术瓶颈,比如数据获取、几何表示复杂性和模型规模化等。
为了破解这些难题,VAST 创造性地将大规模文本、图像和视频合成领域的成功范式引入 3D 领域,推出并开源了基础 3D 生成模型 TripoSG。
与以往模型相比,TripoSG 在质量、细节和保真度上实现了重大突破,能够直接从单张输入图像生成细节惊艳的 3D 网格模型,并且生成效果达到了业界最佳水平。

那么,该模型背后又藏着哪些技术亮点呢?
首先,TripoSG 率先将基于校正流 (Rectified Flow, RF) 的 Transformer 架构应用于 3D 形状生成。相较于传统的扩散模型,RF 提供了从噪声到数据之间更简洁的线性路径建模,有助于实现更稳定、高效的训练。结合 Transformer 架构已被验证的可扩展性和卓越性能,构成了 TripoSG 的强大核心。其最大的研究模型参数量达到 40 亿,可生成由 4096 个 Latent Token 表示的形状,从而实现超乎寻常的细节表现力。
其次在模型架构上,TripoSG 基于 Transformer 基础,融合了包括跳跃连接在内的关键增强设计,以改善跨层特征融合。独立的交叉注意力机制能够高效地注入全局(CLIP)和局部(DINOv2)图像特征,确保输入图像与输出 3D 形状之间的精准对齐。
为了高效扩展模型规模,他们在 Transformer 模块中集成了混合专家模型层。这一策略允许在几乎不增加推理计算成本的前提下显著提升模型容量,并重点应用于网络中更深、更关键的层级。
对于 3D 生成来说,潜空间表示的质量至关重要。它不仅是生成模型的「骨架」,更是决定生成结果是否真实、高效、可控的核心。
为此,VAST 团队开发了一种高效的变分自编码器 (VAE),采用符号距离函数 (Signed Distance Functions, SDFs) 进行几何表示,相较于此前常用的体素占用栅格具有更高的精度。
更为关键的是,TripoSG 还引入了一种混合监督训练策略,将标准的 SDF 损失与表面法线引导 (surface normal guidance) 和 程函方程损失 (eikonal loss) 相结合,促使 VAE 学习到更准确、细节更丰富的几何表示,有效避免了其他方法中常见的瑕疵,为后续的流模型提供了质量更高的潜空间。此外,基于 Transformer 的 VAE 架构也展现出强大的分辨率泛化能力,无需重新训练即可处理更高分辨率的输入。
大模型训练需要大规模、高质量的数据集,但直接使用来自 Objaverse 等公共数据源的原始数据由于数据质量、多样性等原因会导致模型性能欠佳,于是 VAST 团队开发了一套完善的数据构建与治理流水线,包括质量评分、数据筛选、修复与增强、SDF 数据生产等环节。通过这一精细化流程,TripoSG 构建了一个包含 200 万高质量「图像 - SDF」训练样本对的数据集。消融实验也证明,在此高质量数据集上训练的模型性能显著优于在更大规模、但未经过滤的原始数据集上训练的模型。
在这一系列技术加持下,TripoSG 在 3D 内容自动化生成领域取得了显著的进展。
据 Normal-FID 等量化指标评估,以及基于大型多模态模型的定性评估显示,TripoSG 无论是在生成速度和质量上,还是对大规模 3D 数据的高效利用和处理上,都比先前的 SOTA 方法更具优越性。
而 TripoSG 的开源更是为 3D 生成领域注入了一剂强心针,其意义不仅在于技术上的突破,更在于为整个行业开辟了新的发展方向。
TripoSF:闭源 3D 生成新 SOTA 并开源基础组件与算法
此前闭源 SOTA VAST 推出的 Tripo2.5 已确立行业标杆,而新一代 TripoSF 不仅以闭源 3D 生成新 SOTA 的姿态突破性能极限,更开源基础组件与算法推动生态发展。

在 3D 生成领域,高分辨率、任意拓扑的三维重建是一大难题,面临着模型生成精度、拓扑优化、实时渲染和计算资源等多方面的挑战。
一方面,当遇到不规则形状或者涉及多个交叉点、分支、孔洞、表面变化等复杂拓扑结构的重建时,依赖网格、体素或者点云表示的三维重建方法往往力不从心;另一方面,高分辨率建模则不仅要求捕捉全局形状,更需要在细节层次上处理纹理、表面细节、微观结构等。
然而,当前主流 3D 表示方法,比如隐式场(SDF/Occupancy)、显式网格、点云,要么对于细节的捕捉效果较差,并难以实现对高面数、复杂拓扑结构的直接重建;要么在高分辨率下实时渲染时产生巨大的内存开销。这就导致业界很少有模型能够生成媲美专业三维数字雕刻建模软件 ZBrush 所创作出的的高精细、高复杂度作品。
为了克服这些局限性,VAST 推出了新一代三维基础模型 TripoSF,其核心是引入一种全新的表示方法 —— SparseFlex,实现了基于渲染监督的高分辨率(最高可达 1024³)、任意拓扑结构的可微分网格重建,为行业带来全新解决方案。



SparseFlex 相较于以往方法有哪些新颖之处呢?VAST 称,SparseFlex 在借鉴英伟达 Flexicubes(可微分提取带尖锐特征的网格)优势的基础上,更进一步引入了稀疏体素结构。与传统的、覆盖整个空间的稠密网格不同,稀疏体素结构仅在必要的位置(即物体表面附近的区域)存储和计算体素数据,避免了存储空间浪费。
具体来讲,SparseFlex 表达的设计带来了三大显著优势,一是内存占用大大降低,使得 TripoSF 可以在 1024³ 的高分辨率下进行训练和推理;二是原生支持任意拓扑,不仅通过省略空白区域的体素来自然地表示布料、叶片等开放表面,还能有效地捕捉内部结构;三是得益于 SparseFlex 的可微分属性,TripoSF 可以使用渲染损失进行端到端训练,从而避免了水密化等数据转换造成的细节退化。

除了核心的 SparseFlex 表示方法,TripoSF 同样在模型训练、重建与编解码上展现出了技术先进性。
为了实现高分辨率下 TripoSF 的高效训练,VAST 开发了一种「视锥体感知的分区体素训练」(Frustum-Aware Sectional Voxel Training)策略。该策略借鉴了实时渲染中的「视锥体剔除」思想,在每次训练迭代中,仅激活和处理位于相机视锥体内的 SparseFlex 体素。
如此一来,一方面减少了渲染负担,进一步降低训练所需的内存和算力,使得 1024³ 分辨率的训练成为可能;另一方面,首次实现仅通过渲染监督重建模型的内部精细结构,减少了对高成本数据的依赖,并能在动态和复杂环境中实现更高适应性。
而在 SparseFlex 表示和高效训练策略的基础上,VAST 进一步构建了 TripoSF 变分自编码器(VAE)。从输入、编码、解码到输出,TripoSF VAE 形成了一整套完善高效的处理流程,成为 TripoSF 重建和生成体验向前迈出一大步的重要基础,并率先开源。
其中在输入时处理从三维网格采样得到的点云数据,然后使用稀疏 Transformer 将输入的几何映射为紧凑的隐空间编码,接着从隐编码重建高分辨率的 SparseFlex 参数并采用自剪枝上采样模块来保持稀疏性并精确定义边界(开放表面的效果尤为显著),最后生成 SparseFlex 参数以提取高质量的三维网格。
效果显而易见,在与所有闭源模型的直接较量中,TripoSF 的质量达到了 SOTA。在多个标准基准测试中,TripoSF 实现了约 82% 的倒角距离(Chamfer Distance)降低和约 88% 的 F-score 提升,在精细细节、开放表面以及内部几何结构的捕捉上做到了行业领先。

VAST 表示,作为 TripoSF 开源项目的第一阶段,TripoSF VAE 为完整的 3D 生成系统提供了核心的编解码能力。另外,VAST 还基于 VAE 隐空间构建了 Rectified Flow Transformer 生成模型,以高效生成高保真的三维模型。满血版 TripoSF 生成模型将在 Tripo3.0 版本中亮相。
此次,TripoSF VAE 以及核心 SparseFlex 表示的开源,将使更多研究人员和开发者体验到其为高分辨率三维重建带来的性能增益,并基于它探索更多的应用可能性。这让我们更加期待 TripoSF 下一阶段的开源,届时 VAST 会为社区带来更多前沿 3D 技术。
结语
VAST 两大模型的开源只是个开始,这样一波技术更新,会为 3D 开源社区注入新的活力。
视频生成之后,人们都在期待 AI 带来的 3D 创作能力。在国内外社区,越来越多的设计师正在尝试把 3D 生成模型引入自己的工作流,改进游戏、视频、工业设计等领域的生产形态。由于 AI 生成的内容越来越精细、准确,很多一直以来面临的挑战迎刃而解。在 2024 年初与 Stability.ai 一起合作开源 TripoSR 时,VAST 曾定义 3D 生成技术当时第一次达到了 Midjourney V3 的成熟度,并判断 2025 年 3D 生成会达到 Midjourney V5 的水平,如今可见技术向前迈进的速度着实比预计的更快。
以 AI 技术发展的角度来看,3D 生成还是「世界模型」的基座,更强大的 3D 生成技术,将会拓展 AI 的前沿。
可以预见,在 VAST 这一波开源之后,3D 大模型或许很快达到实用化和商业化的程度,并催生出更多新场景的落地应用。
声明:本文转载自机器之心,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里。

游客
- 鸟过留鸣,人过留评。
- 和谐社区,和谐点评。