英伟达开源 TwoTower AI 模型：保留 98.7% 质量，Token 生成提速 2.42 倍

2026-07-03 发布浏览39次点赞0次收藏0次

7 月 3 日消息，英伟达昨日（7 月 2 日）发布博文，宣布推出 Nemotron-Labs-TwoTower，是一种基于预训练自回归骨干网络的离散扩散语言模型，致力于解决大模型 Token 生成速度瓶颈。

在开源方面，该模型以开源权重形式在 Huggingface 平台发布，授权协议为 NVIDIA Nemotron Open Model License。

参数方面，该模型总参数为 60B，采用双塔（TwoTower）架构，包括 30B 的自回归模型（AR）/context Tower 和 30B 的扩散 / 降噪 Tower，每个 Tower 激活 3B 模型，128 个可路由专家。

架构方面，TwoTower 最大的亮点，在于拆分传统扩散语言模型中的网络任务，将文本生成任务中的上下文表示与去噪过程分离到两个独立的神经网络“塔”中。

其中一个塔（上下文塔）保持冻结，专注于维护文本的自回归上下文；另一个塔（去噪器塔）经过训练，负责对噪声块进行去噪，两个塔通过逐层交叉注意力连接协作。

性能方面，英伟达表示从综合基准测试质量来看，双塔架构保留 98.7% 的质量表现，但是实际运行时间吞吐量提高了 2.42 倍。附上相关测试结果如下：

任务	Nemotron-3-Nano-30B-A3B (AR)	Nemotron-Labs-TwoTower (diffusion)
MMLU (5-shot, acc)	78.56	78.24
MMLU-Pro (5-shot, CoT EM)	62.59	60.93
ARC-Challenge (25-shot, acc_norm)	91.72	92.66
WinoGrande (5-shot, acc)	76.09	76.09
RACE (0-shot, acc)	88.90	88.90
HumanEval (0-shot)	79.27	75.58
MBPP-Sanitized (3-shot)	74.71	74.28
GSM8K (8-shot, acc)	92.49	90.14
MATH-500 (4-shot)	84.40	80.60
MMLU Global Lite (5-shot)	73.97	73.94
MGSM (8-shot, avg acc)	80.80	80.40
Quality retained	100%	98.7%
Generation throughput (× AR)	1.0×	2.42×

性能测试文本生成 C 英伟达 AI 大模型

声明：本文转载自IT 之家，转载目的在于传递更多信息，并不代表本社区赞同其观点和对其真实性负责，本文只提供参考并不构成任何建议，若有版权等问题，点击这里查看更多信息！