苹果发现原生多模态模型Scaling Laws:早融合优于后融合,MoE优于密集模型
让大模型进入多模态模式,从而能够有效感知世界,是最近 AI 领域里人们一直的探索目标。
目前我们见到的很多多模态大模型应用是「组合式」的:其中集成了数个单独预训练的组件,例如将视觉编码器连接到 LLM 上并继续进行多模态训练;而在谷歌 Gemin 2.0 推出之后,原生多模态模型(NMM)被认为是正确的方向。
但从零开始训练的多模态大模型真的是更好的方法吗?近日,来自法国索邦大学、苹果的研究者进行了一项广泛的 Scaling Laws 研究,涵盖了 457 个采用不同架构和训练方式的模型。
研究表明,不依赖图像编码器的早融合架构与后融合架构相比并没有固有优势。不过,早融合在较低的参数数量下表现出更强的性能,训练效率更高,并且更易于部署。受早融合架构强大性能的启发,实验表明,结合混合专家 (MoE) 可以使模型学习特定于模态的权重,从而显著提升性能。

论文标题:Scaling Laws for Native Multimodal Models
论文地址:https://arxiv.org/abs/2504.07951
研究人员的发现可以概括如下:原生早融合和后融合模型的性能相当,从零开始训练的早融合模型性能与后融合模型性能相当,在计算预算较低的情况下,略优于早融合模型。此外,对于多模态 Scaling Laws 的研究表明,随着计算预算的增加,早融合和后融合的计算最优模型性能相似。

NMM 的 Scaling Law 与 LLM 类似:原生多模态模型的 Scaling Law 遵循与纯文本 LLM 类似的规律,scaling 指数根据目标数据类型和训练组合略有不同。
与此同时,后融合的模型需要更多参数:与早融合相比,计算最优的后融合模型需要更高的参数与数据比(见图 1 右)。

再往下,稀疏性显著有利于早融合的 NMM:在相同的推理成本下,稀疏 NMM 与密集 NMM 相比表现出显著的改进。
在稀疏性训练中,它们会隐式学习特定于模态的权重(图 23)。此外,随着计算预算的增长,计算优化模型更多地依赖于训练 token 数量的扩展,而不是活动参数的数量(图 1 右)。

对于稀疏 NMM,模态无关路由优于模态感知路由:使用模态无关路由训练稀疏混合专家模型,其性能始终优于使用模态感知路由的模型(图 11)。

原生多模态模型的 scaling 属性
下面具体展示原生多模态模型的 Scaling Laws。该团队研究了多种架构选择、不同的数据混合方式、早融合和后融合 NMM 之间的实际权衡、NMM 的原生预训练和持续预训练的性能表现。
NMM 的 Scaling Laws
早融合和后融合模型的 Scaling Laws。
图 2 左图展示了早融合 NMM 在多模态交织数据集、图像 - 描述数据集和文本数据集上的平均最终损失。其最低损失边界遵循与 FLOPs 的幂律关系。拟合该幂律可得出表达式 L ∝ C^−0.049,这指示了随着计算量的增加,性能提升的速率。

拟合该幂律可得出表达式 L ∝ C^−0.049,这指示了随着计算量的增加,性能提升的速率。
分析每种数据类型(例如,图像 - 说明、多模态交织的文档、文本)的 Scaling Laws 时,可以观察到指数会发生变化(表 3)。例如,与多模态交织(L ∝ C^−0.046)相比,该模型在图像说明数据(L ∝ C^−0.061)上实现了更高的性能提升。

为了将损失建模为训练 token 数量 D 和模型参数 N 的函数,他们还拟合了以下参数函数,得到了 scaling 指数 α = 0.301 和 β = 0.335。它们分别描述了 scaling 模型参数和训练 token 数量时的性能提升率。

该团队假设计算量、N 和 D 之间存在线性关系(即 C ∝ N D),推导出了模型参数与计算预算之间的相关规律,详见原论文附录 C。简单来说,对于给定的计算预算 C,以对数间隔的 D 值计算相应的模型大小 N,并确定使损失最小化的参数数量 N_opt。对不同的 FLOPs 值重复此操作,可得到一个 (C, N_opt) 数据集,该团队对其拟合了一个幂律,可预测计算最优模型大小与计算量的关系:N ∗ ∝ C^0.526。
类似地,他们也拟合了估计计算最优训练数据集大小与计算量和模型大小的关系:

这些关系可让实践者在给定固定计算预算的情况下确定最佳模型和数据集大小。在根据数据类型分析时,该团队发现与图像说明数据 (a = 0.520) 相比,多模态交织数据可从较大的模型 (a = 0.532) 中获益更多,而训练 token 则呈现相反的趋势。
该团队在图 2(右)中对后融合模型进行了类似的研究,并观察到了类似的 scaling 行为。具体而言,损失 scaling 指数 (c = −0.0494) 与早融合 (c = −0.0492) 几乎相同。这一趋势在图 3 中显而易见,在较小的模型规模下,早融合的表现优于后融合,而在较大的模型规模下,两种架构的性能收敛到相似的水平。在改变后融合配置时,该团队也观察到了类似的趋势,例如使用较小的视觉编码器和较大的文本解码器。

NMM 和 LLM 的 Scaling Laws 比较。
通过比较 NMM 的 scaling laws 系数与纯文本 LLM(例如 GPT-3、Chinchilla)的 scaling laws 系数,该团队发现它们处于相似的范围内。
具体来说,如果将损失看作计算量的函数,GPT-3 遵循 L ∝ C^−0.048,而该团队的模型遵循 L ∝ C^−0.049,这表明 NMM 的性能遵循与 LLM 类似的 scaling 规律。同样,该团队对 α 和 β 参数的估计值 (α = 0.301, β = 0.335) 与 Hoffmann 等人报告的值 (α = 0.339, β = 0.285) 非常接近。同样,该团队计算出的 a = 0.526 和 b = 0.473 与 Hoffmann 等人的 a = 0.46 和 b = 0.54 非常接近。
这表明:对于原生多模态模型,训练 token 的数量和模型参数应按比例 scaling。然而,由于 a 和 b 之间的差距小于 LLM,因此这一原则对于 NMM 更为适用。此外,由于在该团队的案例中 a = 0.526 大于 b = 0.473,因此在计算预算固定的情况下,NMM 的最佳模型大小大于 LLM,而最佳训练 token 数量则较低。
早融合与后融合 NMM 的计算优化权衡。
虽然后融合和早融合模型的损失会随着 FLOP 的增加以相似的速率降低,但该团队观察到它们的计算优化模型中存在明显的权衡。具体而言,后融合模型的 N_opt 较大,而早融合模型的 D_opt 较大。这表明,在计算预算固定的情况下,后融合模型需要更多参数,而早融合模型则受益于更多训练 token。
这一趋势也反映在早融合的 低于后融合的
。如图 1(右)所示,随着 FLOPs 的 scaling,早融合模型的参数数量显著减少,这对于降低推理成本,从而降低部署后的服务成本至关重要。
早融合的训练效率更高。
该团队比较了后融合和早融合架构的训练效率。如图 5 所示,在相同的计算预算下,早融合模型消耗的内存更少,训练速度更快。随着计算量的增加,这一优势更加明显,这表明:早融合在保持与后融合相当的大规模性能的同时,拥有卓越的训练效率。

值得注意的是,在相同的 FLOPs 下,与早融合模型相比,后融合模型具有更高的参数数量和更高的有效深度(即除了解码器层之外还增加了额外的视觉编码器层)。
不同数据混合方式的 Scaling Laws
图 4 展示了不同的混合方式都遵循相似的 scaling 趋势;然而,scaling 系数会有差别(表 4)。有趣的是,增加图像 - 说明数据的比例(mixtures 1 和 2)会导致 a 降低、b 升高,而增加多模态交织数据和文本数据的比例(mixtures 3 和 4)则会产生相反的效果。


值得注意的是,图像说明数据包含的图像 token 比文本 token 多;因此,增加其比例会导致图像 token 增多,而增加多模态交织数据和文本数据的比例会增加文本 token 的数量。这表明,当图像 token 占主导地位时,训练时间越长,损失的降低速度就越快,而增加模型大小则更快。
该团队还发现,对于固定的模型大小,增加纯文本和多模态交织数据的比例有利于早融合(图 6)。

原生多模态预训练 vs. LLM 的持续训练
下面比较这两种情况:从零开始进行原生训练,以及使用预训练的 LLM 进行初始化后再进行持续训练。
这里使用的初始模型是 DCLM-1B,该模型已使用超过 2T 个 token 进行训练。图 8 表明,当训练时间更长时,原生多模态模型可以缩小与初始化模型的差距。

具体而言,在图像说明数据上,该模型需要不到 100B 个多模态 token 即可达到相当的性能。然而,在多模态交织数据和文本数据上,该模型可能需要更长时间的训练 —— 可多达 1T 个 token。考虑到预训练的成本,这些结果表明,为了在多模态基准测试中实现相同性能,原生训练可能是更有效方法。
迈向多模态专业化
研究证明了在固定计算预算下,早融合模型的性能与后融合模型相当。然而,多模态数据本质上是异构的,训练一个统一的模型来拟合如此多样化的分布可能并非最优方案。
因此研究人员主张在统一架构内进行多模态特化。理想情况下,模型应该隐式地适应每种模态,例如,通过学习特定于模态的权重或专门的专家。多模态模型 + MoE 是一个有潜力的方向,MoE 已在 LLM 中证明了其有效性。
研究观察了不同数量活动参数、不同数量 token 训练的模型,比较了稀疏 MoE 模型和密集 MoE 模型。图 9 显示,在相同的推理成本(或活动参数数量)下,MoE 的性能显著优于密集模型。有趣的是,这种性能差距在模型规模较小时更为明显。这表明 MoE 能够使模型更有效地处理异构数据,并专注于不同的模态。然而,随着密集模型规模变得足够大,两种架构之间的差距会逐渐缩小。

先前关于大模型 Scaling Laws 的研究主要观察验证损失,这种评估与下游任务的表现有很好的相关性。为了验证这一点,研究人员对 LLaVA 混合模型进行了多模态指令调整阶段 (SFT),并报告了其在多个 VQA 和字幕任务中的准确率和 CIDEr 得分。表 7 证实了不同模型配置的排名。

具体而言,早融合优于后融合,而多模态 MoE 优于密集模型。然而,由于这些模型规模相对较小(15 亿规模)、从零开始训练,并在小型数据集上进行微调,因此总体得分低于目前的 SOTA 水平。
更多细节可参看论文原文。
参考内容:
https://x.com/arankomatsuzaki/status/1910525957452292456
声明:本文转载自机器之心,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里。

游客
- 鸟过留鸣,人过留评。
- 和谐社区,和谐点评。