英伟达开源 TwoTower AI 模型:保留 98.7% 质量,Token 生成提速 2.42 倍

浏览39次 点赞0次 收藏0次

7 月 3 日消息,英伟达昨日(7 月 2 日)发布博文,宣布推出 Nemotron-Labs-TwoTower,是一种基于预训练自回归骨干网络的离散扩散语言模型,致力于解决大模型 Token 生成速度瓶颈。

在开源方面,该模型以开源权重形式在 Huggingface 平台发布,授权协议为 NVIDIA Nemotron Open Model License。

参数方面,该模型总参数为 60B,采用双塔(TwoTower)架构,包括 30B 的自回归模型(AR)/context Tower 和 30B 的扩散 / 降噪 Tower,每个 Tower 激活 3B 模型,128 个可路由专家。

架构方面,TwoTower 最大的亮点,在于拆分传统扩散语言模型中的网络任务,将文本生成任务中的上下文表示与去噪过程分离到两个独立的神经网络“塔”中。

其中一个塔(上下文塔)保持冻结,专注于维护文本的自回归上下文;另一个塔(去噪器塔)经过训练,负责对噪声块进行去噪,两个塔通过逐层交叉注意力连接协作。

性能方面,英伟达表示从综合基准测试质量来看,双塔架构保留 98.7% 的质量表现,但是实际运行时间吞吐量提高了 2.42 倍。附上相关测试结果如下:

任务Nemotron-3-Nano-30B-A3B (AR)Nemotron-Labs-TwoTower (diffusion)
MMLU (5-shot, acc)78.5678.24
MMLU-Pro (5-shot, CoT EM)62.5960.93
ARC-Challenge (25-shot, acc_norm)91.7292.66
WinoGrande (5-shot, acc)76.0976.09
RACE (0-shot, acc)88.9088.90
HumanEval (0-shot)79.2775.58
MBPP-Sanitized (3-shot)74.7174.28
GSM8K (8-shot, acc)92.4990.14
MATH-500 (4-shot)84.4080.60
MMLU Global Lite (5-shot)73.9773.94
MGSM (8-shot, avg acc)80.8080.40
Quality retained100%98.7%
Generation throughput (× AR)1.0×2.42×

声明:本文转载自IT 之家,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里查看更多信息!本站拥有对此声明的最终解释权。如涉及作品内容、版权和其它问题,请联系我们删除,我方收到通知后第一时间删除内容。

点赞(0) 收藏(0)
0条评论
珍惜第一个评论,它往往能得到较好的回响。
评论
游客
游客
登录后再评论
  • 鸟过留鸣,人过留评。
  • 和谐社区,和谐点评。
最新资讯