开源屠刀!400美元炼成「代码副脑」,硅谷天价模型成废铁
【导读】Claude Code这样私有的编程智能体虽然能力强大,但有着封闭、昂贵、难以定制的局限。艾伦研究院推出的Open Coding Agents,让你只需要400美元就能训练一个32B的专属编程智能体。
一个行业的价格体系,往往不是被更强的技术」击穿,而是被「更便宜的复制」改写。
今天,AI2直接把编程智能体的入场费从「实验室级预算」砍到「团队报销级」:公开开源Open Coding Agents,用最低数百美元的算力成本,就能训练出能跑SWE-Bench Verified、还能贴合私有代码库的专属编程智能体。
封闭、昂贵、难定制的「巨头护城河」,第一次被开源用成本刀锋切开一道口子。
开源编程智能体适配私人风格
过去一年,AI编码智能体彻底改写了软件开发的游戏规则——
从代码生成、调试到重构甚至提交拉取请求,AI正以前所未有的深度介入开发流程。
然而繁荣背后,一个残酷的现实是:最强大的编码智能体几乎都被科技巨头封闭,训练成本动辄百万美元,更无法适配企业的私有代码库。

现在有了Allen AI发布的Open Coding Agents,为任何代码库构建自己的编程智能体变得异常容易,你可以使用个人代码库或所在组织的内部代码库,轻松训练一个能够用于包括代码生成、代码审查、调试、维护和代码解释等任务的智能体。
用上这套方法,达到先前最佳开源模型只需约400 美元的计算成本,而要微调出一个与32B最佳行业模型相当性能的编程大模型,成本最高也不过12,000美元,仅需40个GPU日训练(2块NVIDIA Hopper或Blackwell GPU)。
这个价格比许多传统方法便宜25倍以上,对实验室和小型团队来说都触手可及。

图1:SERA-32B在编程任务上的表现
在标准编码基准测试SWE-Bench中,SERA-32B交出了一份令人惊艳的成绩单:在64K上下文长度下,解决率达到54.2%,超越了所有同规模开源模型。
推理速度更是惊人,在4×H100上达到每秒3,700个token,在Blackwell 4×B200上更是达到每秒8,600个token。
但更颠覆认知的是在特定代码库上的表现。当针对Django和SymPy等大型开源项目进行专业化训练后,仅用8,000个样本、1,300美元成本微调的SERA-32B,竟然在多项任务上超越了其老师,拥有1100亿参数的GLM-4.5-Air。
这说明模型规模并非决定性能的唯一因素,高质量、针对性的训练数据可以让小模型在特定领域表现出色。这为资源有限的研究团队和企业提供了新的可能性。他们不再需要追逐千亿参数规模的模型,而是可以通过有针对性的训练,让较小的模型在特定任务上达到顶尖水平。
软验证生成与工作流高保真模拟
SERA的核心突破源于其在合成数据生成方法上的根本性创新。传统方法需要精确验证生成的代码补丁是否正确,这一过程计算成本高昂,成为大规模应用的瓶颈。
而SERA引入的软验证生成(SVG Soft-verified generation)技术,彻底改变了这一范式。
之前的编程智能体训练之所以成本高,是因为训练数据需要包含错误和修正代码的代码示例对,这就意味着需要花费很多人力成本来生成并验证训练数据集。
AllenAI的研究者发现,训练数据不需要完美无缺才能有效。
就像不同的代码可以实现相同功能一样,部分正确的代码补丁同样可以训练出强大的编码智能体。这一发现解放了数据生成过程,使其从昂贵的全验证循环中解脱出来。
AllenAI团队通过系统实验证明,软验证数据与完全验证数据在训练效果上具有相似的缩放规律,但生成成本却大幅降低。
这意味着研究者可以将资源集中在数据量和多样性上,而非追求每个样本的完美正确性。
为了让训练数据多样化,AllenAI团队从51种常见错误模式中系统化生成多样化的训练数据,避免数据单调性。对于代码库中的每个函数,分别生成多个不同的 bug 风格的提示词,这样一个包含数千个函数的代码库可以以低成本产生数万个多样化的用于编程智能体的训练数据。

图2:SERA训练过程
在训练时,SERA通过「教师模型」结合「错误指令集」,在目标代码库上自动化生成两轮数据:第一轮模拟开发者引入错误(Rollout 1),第二轮模拟审查与修复(Rollout 2)。最关键的是,系统并不验证第二轮生成的补丁(P2)是否绝对正确,而是通过r = |P2 ∩ P1| / |P1|来衡量新旧补丁的重叠度。只要重叠度超过50%(r ≥ 0.5),修复补丁即被视为有效。
上述SERA的训练数据的生成方式,模拟的是开发者的工作过程,而不仅仅是代码结果。这意味着AI学习的是如何发现问题、分析问题、解决问题的完整思维链,而不仅仅是记忆正确的代码片段。
SERA项目负责人表示,「软验证捕捉的是开发者的思维过程,而非简单的代码正确性」。这一设计实现了根本性的成本革命。它放弃了追求「完美正确」的样本,转而捕捉「部分正确但逻辑合理」的开发者工作流。
这使得从任何私有代码库大规模、低成本生成高质量训练数据成为可能,最终产出的轨迹与补丁数据可用于高效的监督微调,让中小团队也能训练出理解自身代码的专属编程智能体。
高性能、易部署、兼容Claude Code
此次开源的代码,包括了从8B到32B的所有规模模型,以及在SERA上进行据生成、训练参数、优化策略以微调、测试和构建私有AI编程智能体的全过程,仅需两行代码即可启动推理服务器。
Allen AI还开发了一个设置脚本和推理优化,使SERA直接兼容Claude Code。

优化后的SERA在消费级硬件就可以运行,这对于想使用AI编程智能体的公司,意味着不必担心自身数据外泄,就可以用一个和更大参数模型性能相近,还适配自身编程规范的本地智能体。这对于金融,医疗等关注数据安全的行业尤为适用。
一个充分理解特定代码库的小模型,完全可以战胜通用的巨无霸模型。这对于企业来说,意味着定制化的编码智能体不再是科技巨头的特权,只需要用1/3的参数规模、更少的内存、更快的推理速度,就能获得更好的编程效果。

SERA展示出的小模型+高质量数据的技术路径,减少了对极端算力资源的依赖,使得在更接近数据源的地方进行训练和推理成为可能。这将改变AI智能体的发展方向。
SERA的出现,将会有利于垂直类的编程智能体。企业现在可以构建理解自身代码基的智能体,而非试图让通用模型适应自己的特定需求。医疗、金融、制造等特定行业的编码规范将被快速学习,催生领域专属的AI编码助手。
就像Linux开启了操作系统的开源时代,SERA可能开启编码智能体的开源时代。当每个开发者都能拥有理解自己代码库的AI伙伴时,编码智能体的平民化时代将会到来。最强大的AI工具不应被锁在科技巨头的服务器里,而应该掌握在每个创造者手中。
参考资料:
https://allenai.org/blog/open-coding-agents
声明:本文转载自新智元,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里。
AI 中文社