只需7.6% token,性能还更强!华人团队提全新「草稿链」CoD,成本延迟大降
LLM推理中的延迟问题常被忽视,而实时应用对此要求严苛。来自Zoom的华人团队提出草稿链(CoD)技术,仅用7.6%的token,就能在保持准确率的同时,大幅降低推理成本和延迟。
当下,企业正处于部署AI的关键节点。
随着AI系统在企业运营中的深度融合,计算成本与响应时间成为阻碍AI广泛应用的主要瓶颈。
来自Zoom的华人研究团队取得了一项突破性成果,他们开发的「草稿链」(Chain of Draft,CoD)技术,有望从根本上改变企业大规模部署AI的模式。
通过减少冗长表述并聚焦关键要点,草稿链(CoD)在准确率上与思维链(CoT)相当甚至更优,使用的token量仅为7.6%,显著降低了推理任务的成本和延迟。
目前,该项目已在GitHub上开源。
论文链接:https://arxiv.org/abs/2502.18600
项目链接:https://github.com/sileix/chain-of-draft
AI研究员Prabhakar表示,「对于一家每月处理100万次推理查询的企业而言,采用草稿链技术,每月成本可从(使用思维链时的)3800美元降至760美元,每月节省超过3000美元。」
草稿链对于企业的吸引力,更在于其简便的实现方式。
与需要投入大量成本进行模型重新训练或架构调整的技术不同,已在使用CoT的企业,仅需对现有模型的提示进行简单修改,就能顺利切换至CoD。
在实时客户支持、移动AI、教育以及金融服务等对延迟极为敏感的应用场景中,CoD技术的价值尤为明显。
在这些场景下,即使是极短暂的延迟,也可能对用户体验造成严重影响。
Prabhakar总结道,「随着AI模型的不断演进,优化推理效率与提升原始能力同样重要。」
OpenAI o1和DeepSeek R1等推理模型在复杂任务处理上取得了显著进展,思维链(CoT)技术功不可没。
CoT模仿人类的结构化推理,将问题分解为逐步探索的过程。
然而,CoT往往产生冗长的中间推理步骤,导致高延迟和更高的计算成本。
草稿链:灵感源于人类认知
CoD的灵感来源于人类解决复杂问题的方式。
在解数学题或逻辑谜题时,人们通常不会详细阐述每一个细节,而是用缩写形式只记录关键信息。
受此启发,研究人员提出了草稿链(CoD)这一全新的提示策略。
CoD不要求模型生成冗长的中间步骤,而是让LLM在每一步生成简洁、信息密集的输出。
这种方法限制每个推理步骤最多五个词,使模型专注于最关键的信息。
研究团队在众多基准测试中验证了CoD的性能,包括算术推理(GSM8k)、常识推理(日期理解和体育知识理解)以及符号推理(抛硬币任务)。
其中,Claude 3.5 Sonnet在处理体育相关问题时,CoD将平均输出从189.4个token减少到仅14.3个token,降幅达92.4%!同时准确率从93.2%提高到了97.3%。
CoD在显著减少token的情况下,大幅降低了延迟和计算成本,实现了与CoT相当的准确率。
为了说明标准提示、CoT和CoD的区别,考虑以下简单的算术问题:
「Jason有20个棒棒糖,他分给Denny一些,现在有12个棒棒糖,他给了Denny多少?」
标准提示方法生成的回答通常直接输出答案,而没有任何推理过程。虽然结果正确,却缺乏推理过程的透明度。
CoT提供了详细的推理步骤。虽然回答准确且可解释,但包含了许多与解决数学问题无关的描述性细节,增加了token数量和响应延迟。
CoD仅聚焦于得出解决方案所必需的基本数学运算,将无关的上下文细节统统去除。
这种方式在确保透明度和答案正确性的同时,显著减少了所需的token数量,使得推理过程更加简洁高效。
实验结果
实验中比较了三种不同的提示策略:标准提示、思维链(CoT)和草稿链(CoD)。
标准提示策略使用常规的少样本提示,模型直接返回最终答案,没有任何推理或解释。
CoT策略遵循论文中提供的少样本示例,让模型逐步进行详细推理。
而CoD策略则要求模型在思考时逐步推理,但每个推理步骤限制在最多五个词,从而实现简洁高效的推理过程。
实验采用了两个主流模型:OpenAI GPT-4o和Anthropic Claude 3.5 Sonnet,确保研究结果具有广泛的代表性。
实验结果清晰地表明,CoD在保持高准确率的同时,大幅降低了token使用量和延迟。在各类推理任务中,CoD与CoT相比展现出显著的效率优势。
算术推理
在算术推理任务中,研究人员选择了GSM8k数据集,该数据集包含8500个小学水平的数学问题,每个问题都配有详细的逐步解决方案。
CoD展现出显著的效率提升,实验结果见下表。
对于GPT-4o和Claude 3.5,CoD都达到了91%的准确率,而每个响应仅需约40个token,相比CoT减少了约80%。
这也降低了平均延迟,GPT-4o降低了76.2%,Claude 3.5降低了48.4%。
常识推理
在常识推理方面,研究人员评估了BIG - bench中的日期理解和体育理解任务。
CoD不仅通过生成显著更少的响应token,显著降低了延迟和成本,而且准确率优于CoT。
在日期理解任务中,使用CoD的Claude 3.5 Sonnet模型达到了89.7%的准确率,超过了CoT的87.0%,延迟从3.2s降低到1.4s。
体育理解任务中,CoD将Claude 3.5 Sonnet的平均输出token从189.4减少到14.3,减少了92.4%!同时准确率从93.2%提升至97.3%。
符号推理
在符号推理任务中,研究人员按照原始思维链论文的设计合成了一个包含250个示例的抛硬币测试集。
在标准提示下,GPT-4o和Claude 3.5 Sonnet的准确率分别为73.2%和85.2%。使用CoT和CoD时,两个模型的准确率均达到了100%。
与CoT相比,GPT-4o的token减少了68%,Claude 3.5 Sonnet减少了86%。
这些实验结果表明,CoD不仅能保持高准确性,还能大幅提高推理效率。
CoT在需要高透明度、可解释性强的场合表现出色,如复杂决策支持。CoD则在对效率和响应速度有高要求的场景中更具优势,如实时应用、大规模AI部署、资源受限环境等。
CoD让先进的推理技术变得更加亲民、易用,有助于推动其在更广泛场景中的普及。
参考资料:
https://arxiv.org/abs/2502.18600
https://venturebeat.com/ai/less-is-more-how-chain-of-draft-could-cut-ai-costs-by-90-while-improving-performance/
声明:本文转载自新智元,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里。

游客
- 鸟过留鸣,人过留评。
- 和谐社区,和谐点评。