GPT-5.5来了!全榜第一碾压Opus 4.7,OpenAI今夜雪耻
【导读】就在刚刚,奥特曼深夜掷出GPT-5.5!全方位暴击Claude Opus 4.7,重新夺回地表最强王座。从写代码到搞科研,AI独立接管电脑的时代真的来了!
硅谷今夜未眠!
就在刚刚,GPT-5.5震撼登场——OpenAI迄今最强、最全能的新一代旗舰模型。
它是一种全新级别的智能,彻底进化为Agent时代的「原生大脑」。

没错,就是那个万众期待的「土豆」(Spud),终于在今天杀出来了。


最值得看的是,GPT-5.5在各项基准测试中:全榜第一!
不论在编程、推理、数学,还是智能体任务上,Claude Opus 4.7、Gemini 3.1 Pro完全被GPT-5.5踩在了脚下。
相较于上一代,GPT-5.5 Thinking堪称「降维打击」,拉开了代际差距。
在AAI测试中,相同输出token下,GPT-5.5智能指数冠绝全球;另在ARC-AGI-2上,同样刷新了SOTA。



奥特曼忍不住大加赞赏,「GPT-5.5既聪明又快速」。
每个token的速度与GPT-5.4一样快,且每个任务使用token量显著降低。
它可以几乎做到心领神会,知道自己该做什么!

总裁Greg激动称,「这朝着一种全新的计算机工作方式迈出了一步」。

今天起,GPT-5.5在ChatGPT、Codex中正式上线。

编程新王登场
Opus 4.7跌落神坛
先看最核心的编程领域,GPT-5.5可谓是打了一场漂亮的翻身仗!
用OpenAI的话来说,它是迄今为止最强大的智能体编程模型。


Terminal-Bench 2.0测试考的是全链路Agent工程实力。
题目会给模型一个终端环境和一个模糊目标,让它自己规划路径、调工具、写脚本、处理报错、反复迭代。
在这里,GPT-5.5拿下82.7%,GPT-5.4是75.1%,Claude Opus 4.7只有69.4%。13个百分点的差距,碾压级别。
OpenAI内部的Expert-SWE评测,专门测那些人类预估中位完成时间20小时的长周期编程任务,GPT-5.5拿到73.1%,同样高于GPT-5.4的68.5%。

在业界公认最能反映真实GitHub问题解决能力的评测SWE-Bench Pro中,GPT-5.5得分58.6%,略逊色于Claude Opus 4.7(64.3%)。
不过,OpenAI在这个数据旁边标了一个星号,写着「Anthropic报告称在部分问题子集上存在过拟合(记忆)迹象」。
换句话说就是,Opus 4.7虽然考试成绩好,但我怀疑你背过答案。

Codex研究员直言:SWE-Bench早已不能衡量顶尖编程能力了
最关键是,在这三项的评估中,GPT-5.5使用了更少的token,但仍全面赶超GPT-5.4。
这一能力在Codex中,体现得更为明显。
它可以完成「端到端」的编程任务,从实现、重构到调试、测试和验证等流程。
举个栗子,让GPT-5.5做一个阿尔忒弥斯II太空任务可视化应用。
首先把一张任务的截图扔给GPT-5.5,然后要求用WebGL和Vite实现一个可交互的3D轨道模拟器,轨迹数据必须来自NASA/JPL Horizons的真实矢量数据,并且还要有逼真的轨道力学。
只见,GPT-5.5从零搭完,鼠标拖拽能转,猎户座飞船、月球、太阳的相对位置都对得上。
再来一个坦克打飞碟。
Prompt要求用Three.js做一个UFO射击游戏,玩家控制坦克击落头顶飞过的飞碟,「低多边形但要好看」,先给出完整文件结构和需要改动的文件清单,再写全部代码,「完成之前不许停」。
GPT-5.5全部照单执行,从文件结构到Three.js渲染到射击判定,一口气交付了一个可玩的3D游戏。
在3D地牢竞技场中,Codex包办游戏架构、TypeScript/Three.js实现、战斗系统、敌人遭遇和HUD反馈。
GPT生成了环境贴图,OpenAI API生成了角色对话,角色模型、贴图和动画来自第三方素材工具。几个AI各管一摊,拼出一款能打怪的游戏。
早期测试的大佬直言, GPT‑5.5拥有更强的理解系统形态的能力。
它更能判断问题出在哪,修复该加在哪,以及代码库中还有哪些地方会受到牵连。
85% OpenAI员工用疯
这才是真正干活的AI
编程之外,GPT-5.5在「知识型工作」上的数据同样亮眼。
毕竟,OpenAI将其称为,「一种面向真实工作的全新智能」。
它能更快地理解你想要做什么,并在不同工具之间切换,直到任务完成。



GDPval,评估AI在44个职业中完成规范知识工作的水平,GPT-5.5拿到84.9%,Opus 4.7是80.3%,Gemini 3.1 Pro只有67.3%。

OSWorld-Verified,测试模型能否独立操作真实电脑环境,GPT-5.5得分78.7%,和Opus 4.7的78.0%几乎打平。
Tau2-bench,测试模型能否在复杂客服工作流中处理多轮对话、查询系统、执行操作。,GPT-5.5在没有微调提示词的情况下达到98.0%。

有意思的是OpenAI自己怎么用的。据官方博客披露,公司内部超过85%的员工每周跨部门使用Codex。
公关部门用GPT-5.5分析了六个月的演讲邀约数据,搭建了评分和风险框架,让低风险请求自动走Slack AI智能体处理。
财务部门审查了24,771份K-1税表,共71,637页,比去年提前两周完成。
市场团队实现了每周业务报告自动生成,每周省5到10个小时。
如今,在Codex中,通过GPT-5.5可与Web应用直接交互,测试流程、点击页面、截取屏幕,并根据所见内容不断迭代,直到完成任务。
如下是,测试入职流程的一个例子。

Codex还可以生成更高质量的电子表格、PPT和文档,如下是一个财务建模的demo。
应用内新增的文件查看器,可加快审阅、修订和迭代速度,让文件更快准备好分享。

在计算机使用上,Codex操作电脑能力更强了。
无论是识别屏幕内容,还是点击、打字、导航,甚至是跨工具流转上下文信息,它都能轻松搞定。

OpenAI研究员Noam Brown直言,有了GPT-5.5,自己也能像专业人士一样编写CUDA内核,运行研究实验。

颠覆科研
证明「拉姆齐数」定理
除了这些,GPT-5.5还协助发现了一个关于拉姆齐数的新证明,并在Lean语言中得到了验证。
拉姆齐数是组合数学的核心研究对象,通俗地说就是一个网络大到什么程度,才一定会出现某种规律性结构。这个领域的新结果极其罕见。

论文地址:https://cdn.openai.com/pdf/6dc7175d-d9e7-4b8d-96b8-48fe5798cd5b/Ramsey.pdf
这个领域的研究成果极其罕见,技术难度极高。GPT-5.5发现了一个关于非对角拉姆齐数长期渐近事实的证明。
不是写代码,不是做解释,是提出了一个有价值的数学论证。
GeneBench上,GPT-5.5得分25.0%,GPT-5.4是19.0%。这个评测专门测多阶段科学数据分析,要求模型在几乎没有人工干预的情况下处理模糊数据、应对隐藏混杂因素。
BixBench,基于真实生物信息学设计的评测,GPT-5.5在所有已公开分数的模型中排名第一,80.5%。


FrontierMath Tier 4,由陶哲轩等顶级数学家策划的前沿数学题库中最难一档,题目涉及代数几何、数论等方向,难度接近未发表研究。
GPT-5.5得分35.4%,GPT-5.4是27.1%,Opus 4.7只有22.9%。差距超过12个百分点。
对比一下Tier 1-3的差距只有8个百分点(51.7% vs 43.8%),说明越到数学前沿,GPT-5.5的优势越悬殊。
Jackson基因医学实验室的免疫学教授Derya Unutmaz用GPT-5.5 Pro分析了一个包含62个样本、近28,000个基因的表达数据集。
模型出具了一份详尽的研究报告,不仅总结了发现,还深挖出关键问题和洞察。相比之下,如果这活儿让人类团队来干,得花上好几个月。

波兹南·密茨凯维奇大学数学助教Bartosz Naskręcki在Codex中,仅用11分钟就从一个单一提示词构建了一个代数几何应用,可视化了二次曲面的交集,并将生成的曲线转换为Weierstrass模型。

从编程到知识工作再到科研,升番到这里,结论摆在眼前。
GPT-5.5不是又一次「小版本迭代」,它是一次全新基座模型带来的整体性跃升。
全方位击败Opus 4.7,就看一张图
总言之,GPT-5.5的诞生,堪称迎来了脱胎换骨的蜕变。对战Opus 4.7,一张图就够了。

另在Vending-Bench中,GPT-5.5同样暴击Opus 4.7。
Opus 4.7的表现跟4.6差不多:老是对供应商撒谎,还在退款上坑顾客。相比之下,GPT-5.5的手段就很正派,而且照样赢下了比赛。
奥特曼还玩个梗,「千万别转,千万别转,千万别转....哎,算了吧,生活终究是在模仿艺术」。


定价翻倍
更强,但也更贵
说完实力,必须说钱。
GPT-5.5的API定价,每百万输入Token 5美元,每百万输出Token 30美元。

GPT-5.4是多少?2.50美元和15美元。
整整翻了一倍。
GPT-5.5 Pro更夸张,输入30美元,输出180美元。
对比一下Opus 4.7,输入5美元,输出25美元。GPT-5.5的输入价格和Opus 4.7持平,但输出贵了20%。
OpenAI给出的解释是token效率提升。同样的Codex任务,GPT-5.5用的token比GPT-5.4明显更少。
更强,而且更高效。
但算一笔账就知道,如果一个团队每月在GPT-5.4上花10万美元,切换到GPT-5.5后即使token用量减少30%,月账单依然会涨到14万美元左右。
换句话说,GPT-5.5是一个「你为更强的智能付更多的钱」的溢价产品。相比之下,GPT-5.4大概率会继续作为性价比之选存在。

OpenClaw已接入最强GPT-5.5
8天,一个时代的缩影
回头看这8天发生了什么。
4月16日,Anthropic用Opus 4.7在SWE-Bench Pro上发起突袭,从GPT-5.4手中夺走编程王座。
4月24日,GPT-5.5正式发布。Terminal-Bench碾压,定价翻倍,科研炸裂。
2026年的AI竞赛,已经不是「谁的模型更强」这一个维度的较量了。
在GPT-5.5的叙事里,OpenAI反复强调的是「探索全新的电脑办公方式」,一个能自主规划任务、调用多种工具、在浏览器和本地软件之间来回切换的通用Agent。
跑分是前菜,Agent化办公才是主战场。谁先定义「AI怎么替人干活」,谁就定义下一代电脑使用界面。
8天一个来回。这个节奏,只会更快。
参考资料:
https://openai.com/index/introducing-gpt-5-5/
https://x.com/OpenAI/status/2047376561205325845?s=20
声明:本文转载自新智元,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里查看更多信息!
。
AI 中文社