推理提速4倍!北航、浙大提出动态拼接,大小模型智能协作
【导读】针对「大模型推理速度慢,生成token高延迟」的难题,北航、浙大等提出R-Stitch框架,通过大小模型动态协作,衡量任务风险后灵活选择:简单任务用小模型,关键部分用大模型。实验显示推理速度提升最高4倍,同时保证高准确率。
近两年,思维链(Chain-of-Thought, CoT)推理让大语言模型在复杂推理任务上展现出前所未有的能力——从数学解题到逻辑分析,表现令人惊叹。
然而,这种强大的推理能力也带来了一个长期存在的挑战:推理过程过于缓慢。
每生成一个 token,模型都要完整算一遍前向传播。长一点的推理链,几千上万个 token,不仅延迟高,成本也成倍增加。
在加速大语言模型的诸多方向中,Speculative Decoding(投机解码) 一直是备受关注的方案。
它的思路简单:让小模型(SLM)先预测一段输出,大模型(LLM)校验一致性。若一致,大模型就能够一次接受小模型的输出,减少大模型解码的次数,从而加速。
莫纳什、北航、浙江大学等机构的研究者提出了一种动态拼接的大模型推理框架R-Stitch,让大小模型智能协作,在vLLM推理框架下提速最高可达4倍。
项目主页:https://caesarhhh.github.io/R-Stitch
论文链接:https://arxiv.org/abs/2507.17307
研究团队在AMC数据集上,对投机解码测试了多组模型组合,包括DeepSeek-R1-Distill-Qwen-1.5B/7B、L1-1.5B-Short、以及 Qwen2.5-Math-1.5B/7B-Oat-Zero等。
结果显示出一致的趋势:token 一致性越高,加速越明显;一致性越低,速度提升就越有限。
并且,并非所有样本都能加速。团队观察到相当一部分输入的速度提升低于 1×,即比原始推理还慢——说明当模型间差异较大时,投机解码的一致性校验可能反而带来开销。
图1 Token一致性与推理加速分析。 (a) 不同大模型–小模型组合在AMC数据集上的token一致率与加速比关系;(b) 各样本的加速比分布,可见部分样本出现低于1×的情况;(c) 在两者都答对的问题上,L1-1.5B-Short的推理更短、更简洁。
更有意思的是,在DeepSeek-R1-Distill-Qwen -7B与L1-1.5B-Short的实验中,研究人员发现:
当两者都答对时,L1-Short的推理长度远小于该7B模型。
这意味着:小模型可能以更短的推理路径到达相同结论,而投机解码对token一致性的强调,则忽略了这些更高效的路径。
经验熵分析
不确定性揭示推理风险
图2 熵与错误位置的关系。 (a) 错误解答的整体熵明显高于正确解答;(b) 熵分布高度集中在0附近,大多数token具有极低或接近零的熵;(c) 首个导致错误的 token 附近区域平均熵更高,说明模型往往在不确定区域产生错误。
在让大小模型协同推理之前,需要弄清楚一个关键问题:
小模型在什么时候能被信任?又是什么迹象预示它可能要「翻车」?
为此,团队在AMC数据集 上,对推理过程中的token熵分布进行了深入分析,使用DeepSeek-R1-Distill-Qwen-7B作为大模型,L1-1.5B-Short作为小模型,逐步揭示出三个稳定的规律。
首先,大多数token的熵极低。统计结果显示,只有约10%的token熵超过 0.1,而绝大部分几乎为零。这意味着模型在大部分生成过程中都非常「自信」,真正的不确定区域其实只占很小一部分。
其次,错误推理的平均熵显著更高。在同样的题目上,错误答案的 token 熵明显更高,说明模型在这些题目的推理中更不确定。
并且,团队观察到一个关键细节:在小模型出错的样本中,错误往往起源于局部的高熵区域。
在第一个导致错误的 token 附近 token的平均熵显著高于全局水平,因此上述现象可以说明高熵的地方更容易导致错误。
大小模型协同动态解码
图3 R-Stitch方法流程图
熵引导的动态切换
基于上述实验观察,团队提出了一种能根据熵动态切换大小模型的解码框架R-Stitch,让推理既快又稳。
核心思路是:
让小模型 (SLM)尽可能多地负责推理,以提升速度;
让大模型 (LLM)只在「高熵、高风险」的时刻介入,以保证正确率;
当LLM处理完复杂部分、进入「低熵」区间时,它又能把控制权交还给SLM,继续快速生成。
在每一步生成中,模型都会对所有候选词计算一个概率分布,研究人员用这个分布的归一化熵值(介于0到1之间)来衡量不确定性。
当SLM的熵值低于阈值τ(表示确定性高)时,它继续生成;
当熵值高于阈值时,说明「有点拿不准」,此时就交由LLM接手;
反过来,当 LLM 的熵再次降到阈值以下时,它会把控制权还给SLM
这种基于熵的双向切换策略,使系统能在推理链中灵活往返,实现速度与精度的动态平衡。
基于强化学习的动态切换
在R-Stitch 基础之上,团队进一步提出了 R-Stitch⁺,通过强化学习让一个轻量级路由器学会更智能地决策何时切换。
这个路由器会在高熵时段读取当前模型隐状态,判断是继续用 SLM 还是交给 LLM。
团队为它设计了两种奖励信号:
准确率奖励:答案正确则加分;
效率奖励:计算越快越好,但前提是不能牺牲正确率。
为准确评估推理成本,R-Stitch⁺引入了真实延迟感知的奖励函数。
总的奖励形式为:
其中
表示预测正确与否,是整条推理轨迹的估计延迟,λ为平衡系数。
延迟只在输出正确时被惩罚,确保模型不会「为快而快」。
由于在强化学习中直接测量每个样本每条采样轨迹的真实延迟代价太高,R-Stitch⁺采用了延迟估计器。
团队为每个模型在不同输入长度和缓存大小下采样延时数据,并用线性回归拟合出它们的延迟曲线。
预填充的延迟被建模为:
其中
表示当前处理的token数量,为缓存长度,系数a, b, c, d由实测数据回归得到。
解码阶段只需将
,得到:
最终,整条推理轨迹的延迟由所有步骤的时间求和获得。
通过这种方式,路由器在训练时就能「脑补」每个决策的时间成本,真正实现延迟感知的策略学习——既考虑答得准,也懂得算得快。
实验结果
速度提上去,精度稳得住
图4 所提方法在数学推理数据集上的表现,所有延时均在vLLM推理框架下实测
团队将所提方法集成到vLLM中,并在多个数学推理基准上评估了所提方法。结果显示,R-Stitch在几乎不损失准确率的前提下,显著降低了推理延迟:以7B 与14B模型为例,在合理阈值下可实现约2–3×的整体加速,而在更大模型上提速可达约3–4×。
当阈值进一步提高时,速度继续上升,但会带来精度下降,形成稳定的效率–精度平衡。
相比之下,投机采样在一致性较低的模型组合中常因频繁回退导致开销上升,甚至比原生 LLM 更慢;仅用小模型虽快但精度显著下降。
总体来看,R-Stitch的熵路由机制在不同模型规模和推理预算下都表现稳健,实现了「快而不失准」的推理路径。
进一步地,R-Stitch⁺通过引入强化学习路由器,使切换策略更加稳定,在不同阈值下都能保持较优的速度–精度表现。
图5 R-Stitch⁺与投机解码的逐样本对比(LLM-7B, AMC 数据集)。 每个柱状条表示单个样本相对于大模型基线的加速比,颜色表示推理是否正确。虚线为无加速(1×),黑色曲线展示了各样本的token减少比例。
从样本级对比可以看到,R-Stitch⁺在大多数样本上都能实现稳定提速,而投机解码仅在少量样本中表现出加速,大部分情况下反而因为一致性不足而变慢。
理论上,投机解码的加速上限受限于大小模型的延迟差距,在7B以及1.5B的模型组合上当一致性极高时最多只能接近2×;而R-Stitch⁺额外利用了小模型生成更简洁的表达,保持答案正确的同时,实际加速最高可达约 14×。
图6 R-Stitch与提早退出方法结合的效果
在此之外,团队还验证了R-Stitch能否与免训练的提早退出方法DEER协同工作,以进一步提升解码效率。DEER会在模型信心超过阈值时提前结束推理,而 R-Stitch 通过熵路由在生成过程中动态切换大小模型。两者结合后,在缩短推理路径的同时,也显著降低了每个token的计算成本。
从结果来看,R-Stitch与DEER的组合在多个数据集上都实现了显著加速:在AIME上,生成token数量减少一半以上,延迟从210秒降至92秒;
在GPQA-D上,推理时间从117秒降至18秒,同时准确率还略有提升,对比原始LLM-7B推理相当于约9.5×加速。
这说明两种机制天然互补:DEER 缩短了生成序列,而R-Stitch降低了单步成本且进一步缩短生成序列。
总结
R-Stitch提出了一种基于熵的不确定性路由机制,让大小模型在推理过程中动态协作:小模型负责简单部分,大模型处理关键步骤,从而在不损失精度的前提下显著提速。
在此基础上,R-Stitch⁺通过强化学习路由器进一步提升了切换的智能性与稳定性,实现了更平衡的速度–精度表现。
整体来看,R-Stitch提供了一种让大小模型协同加速、兼顾灵活性与效率的高效推理方案。
参考资料:
https://arxiv.org/abs/2507.17307
声明:本文转载自新智元,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里。

游客
- 鸟过留鸣,人过留评。
- 和谐社区,和谐点评。