超 Claude Mythos 5 成绩:OpenAI 最强“抓虫 AI”GPT-5.5-Cyber 刷新 CyberGym 纪录
浏览21次
点赞0次
收藏0次
6 月 23 日消息,OpenAI 公司昨日(6 月 22 日)发布公告,宣布扩展 Daybreak 网络安全项目,面向安全防御团队有限开放完整版 GPT-5.5-Cyber(网络安全专用模型)。
注:Daybreak 是 OpenAI 公司推出的网络安全计划,类似 Anthropic 推出的 Project Glasswing 项目,主要帮助防御团队发现、验证和修复漏洞,缩短漏洞进入生产环境后的处置周期。

OpenAI 在博文中指出,强大 AI 模型显著加快漏洞发现速度,目前行业的痛点和瓶颈,已转向修复这些披露的漏洞。对于软件团队而言,评估影响、编写修复代码、完成测试,并最终发布补丁,整个链条依然耗时。
模型能力方面,根据 CyberGym(网络安全评测集)的单模型成绩,GPT-5.5-Cyber 取得 85.6% 的最高成绩,刷新了 GPT 系列模型在 CyberGym 测试中的得分纪录。作为对比,GPT-5.5 模型得分为 81.8%,而 Claude Mythos 5 模型的得分为 83.8%。

在 ExploitGym 测试(考验智能体能否将已知漏洞转化为可执行的攻击代码)中,GPT-5.5-Cyber 的得分为 39.5%,而 GPT-5.5 为 25.95%。

在 SEC-bench Pro 测试中,GPT-5.5-Cyber 的得分为 69.8%,而 GPT-5.5 的得分为 63.1%。SEC-bench Pro 测试用于评估智能体在复杂软件目标上的长期漏洞发现能力和概念验证生成能力。
声明:本文转载自IT 之家,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里查看更多信息!
AI 中文社