Python逆天改命!开源Hermes首次击败OpenAI Codex
【导读】一个纯Python写的开源项目,竟把OpenAI用Rust写的王牌给秒了!最终战绩6比5,Hermes直接上演工程暴力美学,解释型语言终于逆天改命。
一个纯Python写的开源项目,竟击溃了OpenAI王牌!
今天,全网都被Hermes Agent的硬核实力狠狠刷屏了:
在针对真实世界CLI任务的11项基准测试中,它以6:5的战绩,直接把Codex按在地上摩擦。

在这场备受瞩目的对决中,Hermes Agent展现出了惊人的底层优化能力。
通过一连串的硬核操作,成功把系统的启动时间,从701ms缩短至258ms。

更让人震撼的是,Hermes完全由Python编写,而Codex是用Rust写的。
这一仗,Python打赢了Rust!
这在编程界,属是「逆天改命」了。


三大狠招,砍掉63%启动时间
就在这次优化之前,Hermes还是5-6落后的那个。
这次逆转不是靠换模型、不是靠堆算力,而是靠三个纯工程优化,刀刀见血。

那么,它是具体如何做到的?
第一刀:Bitwarden磁盘缓存
原来Hermes每次启动都会调用Bitwarden Secrets Manager的API去拉取凭据,一次就是380毫秒。
问题在于,之前的缓存是「纯进程内」,连续执行两次hermes chat -q,第二次还是要重新拉。
解决方案是,加了一个L2磁盘缓存。
缓存文件权限锁死0600,存放在
/cache/bws_cache.json
,默认TTL 300秒。
另外,访问token本身绝不落盘,默认300秒TTL,过期才重新拉取。
一刀砍掉380ms。

第二刀:模型目录延迟加载
hermes_cli.models._PROVIDER_MODELS,一个包含所有AI供应商模型信息的巨型字典。
之前在模块加载时就急切导入,吃掉约55ms。
实际上只有model_flow相关的处理函数才需要它。
团队用PEP 562的模块级getattr实现了懒加载,只在真正访问模型目录时才付出这笔开销。。
这一步,又省了55毫秒。
第三刀:配置文件去重
main.py顶部原本读了两次config.yaml。
一次yaml.safe_load用于密钥脱敏桥接,一次完整的load_config()(含深度合并)只为检查一个布尔值。
合并成一次原始加载,省下17ms。
这三刀加起来, 启动时间从701ms暴降至258ms,降幅63%。
不得不说,这才是真正的工程暴力美学,纯靠profiling找到瓶颈,一刀一刀切掉冗余。

战绩6:5,Hermes翻盘时刻
最终结果,是不会说谎的。
在优化前,Hermes对Codex的总战绩是5胜6负:单轮任务被Codex压制,多轮任务略有优势但不够明显。
优化后,局面彻底反转。
单轮任务(8项):Hermes的中位框架开销,降到了与Codex持平甚至略低的水平。
原本被Codex碾压的启动劣势,被完全抹平。
多轮任务(3项):Hermes在5轮对话的总开销上已经领先,优化后优势进一步拉大。

最后的总分,6:5,Hermes实现了反超。
这意味着,一个用Python写的开源项目,在框架开销——
一个最考验底层功力的维度,击败了用Rust写的、背后站着万亿市值公司的闭源产品。

Python,打赢了Rust
真正反直觉的部分在于,Python凭什么赢下Rust?
长期以来,Python在性能圈几乎是「原罪」般的存在:解释型语言、GIL锁、动态类型开销……
当OpenAI选择用Rust构建Codex CLI时,所有人都觉得理所当然——
Rust生来,就是为性能而生的。

但Hermes的这次逆袭说明了一个关键事实:
在Agent这个赛道上,框架层面的架构决策,比语言层面的原始速度更重要。
开发者netrunner的评论一针见血,「Python在多轮任务上打赢Rust,本质上是架构决策的胜利,而不是语言速度的胜利」。
「Codex可能在上下文处理上,过度工程化了」。

还有人问道,「为何不把Hermes也迁移到Rust?那不是更快」?
Hermes联创兼首席科学家Teknium直言,「那样就无法编辑代码,以及实时改进和迭代」
也就是说,Python的优势不在于快,而在于活。

对于一个需要持续进化、从每次交互中学习的Agent来说,开发者友好性和迭代速度,就是最大的性能优势。
GitHub冲爆16.7万星
硬刚万亿巨头
Hermes Agent的爆发速度,本身就是一组让人瞠目的数据。
从2026年2月25日上线至今,仅仅三个月,GitHub星标已经突破16万。
日活Token消耗量达到353B,是同类项目OpenClaw的近两倍。
可以说,它是2026年增长最快的开源Agent框架,没有之一。

GitHub地址:https://github.com/nousresearch/hermes-agent
Hermes的核心杀手锏,是一套闭环学习架构:
每次完成复杂任务后,Agent会自动将解决方案提炼为可复用的Skill(技能)。
下次遇到类似任务,直接调用已有技能,跳过从头推理。
NousResearch内部基准测试显示,积累20个以上自创技能的Hermes实例,完成同类任务的速度比全新实例快40%。

更狠的是,v0.12版本引入的自治Curator——
一个后台自动运行的Agent,会定期评分、修剪、合并你的技能库。
换句话说,Hermes不仅能学,还能自己整理学到的东西。
语言不是天花板,架构才是
Python打赢Rust这件事,看起来是一个编程语言之间的「逆袭爽剧」。
但它真正揭示的东西,要深刻得多。
在AI Agent的世界里,底层语言的性能差异正在变得越来越不重要。
Hermes这次优化砍掉的443毫秒,已经是框架层能挤出的极限了。而一次LLM调用的延迟,动辄几百毫秒甚至数秒。
这意味着,在通往ASI的路上,真正的竞争从来不是「用什么语言写」,而是「怎么让Agent越用越聪明」。
而Hermes这次用Python干翻Rust,恰恰证明了——
在Agent进化的赛道上,开放、可编辑、可迭代的架构,比「跑得快」更接近ASI的本质。
Rust是一把好刀,但ASI需要的不是一把更快的刀。
参考资料:
https://x.com/Teknium/status/2058885472513065471?s=20
https://github.com/NousResearch/hermes-agent/pull/31968
编辑:桃子 David
声明:本文转载自新智元,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里查看更多信息!
AI 中文社
胡扯淡,产品好坏和语言真没有直接关系,不要再出这类的文章误导新人了
胡扯淡,产品好坏和语言真没有直接关系,不要再出这类的文章误导新人了
" 评论的回复:剩儿,估计你都没有看内容... 呵呵