GPT-5.5来了！全榜第一碾压Opus 4.7，OpenAI今夜雪耻

2026-04-24 发布浏览440次点赞0次收藏0次

【导读】就在刚刚，奥特曼深夜掷出GPT-5.5！全方位暴击Claude Opus 4.7，重新夺回地表最强王座。从写代码到搞科研，AI独立接管电脑的时代真的来了！

硅谷今夜未眠！

就在刚刚，GPT-5.5震撼登场——OpenAI迄今最强、最全能的新一代旗舰模型。

它是一种全新级别的智能，彻底进化为Agent时代的「原生大脑」。

没错，就是那个万众期待的「土豆」（Spud），终于在今天杀出来了。

最值得看的是，GPT-5.5在各项基准测试中：全榜第一！

不论在编程、推理、数学，还是智能体任务上，Claude Opus 4.7、Gemini 3.1 Pro完全被GPT-5.5踩在了脚下。

相较于上一代，GPT-5.5 Thinking堪称「降维打击」，拉开了代际差距。

在AAI测试中，相同输出token下，GPT-5.5智能指数冠绝全球；另在ARC-AGI-2上，同样刷新了SOTA。

奥特曼忍不住大加赞赏，「GPT-5.5既聪明又快速」。

每个token的速度与GPT-5.4一样快，且每个任务使用token量显著降低。

它可以几乎做到心领神会，知道自己该做什么！

总裁Greg激动称，「这朝着一种全新的计算机工作方式迈出了一步」。

今天起，GPT-5.5在ChatGPT、Codex中正式上线。

编程新王登场

Opus 4.7跌落神坛

先看最核心的编程领域，GPT-5.5可谓是打了一场漂亮的翻身仗！

用OpenAI的话来说，它是迄今为止最强大的智能体编程模型。

Terminal-Bench 2.0测试考的是全链路Agent工程实力。

题目会给模型一个终端环境和一个模糊目标，让它自己规划路径、调工具、写脚本、处理报错、反复迭代。

在这里，GPT-5.5拿下82.7%，GPT-5.4是75.1%，Claude Opus 4.7只有69.4%。13个百分点的差距，碾压级别。

OpenAI内部的Expert-SWE评测，专门测那些人类预估中位完成时间20小时的长周期编程任务，GPT-5.5拿到73.1%，同样高于GPT-5.4的68.5%。

在业界公认最能反映真实GitHub问题解决能力的评测SWE-Bench Pro中，GPT-5.5得分58.6%，略逊色于Claude Opus 4.7（64.3%）。

不过，OpenAI在这个数据旁边标了一个星号，写着「Anthropic报告称在部分问题子集上存在过拟合（记忆）迹象」。

换句话说就是，Opus 4.7虽然考试成绩好，但我怀疑你背过答案。

Codex研究员直言：SWE-Bench早已不能衡量顶尖编程能力了

最关键是，在这三项的评估中，GPT-5.5使用了更少的token，但仍全面赶超GPT-5.4。

这一能力在Codex中，体现得更为明显。

它可以完成「端到端」的编程任务，从实现、重构到调试、测试和验证等流程。

举个栗子，让GPT-5.5做一个阿尔忒弥斯II太空任务可视化应用。

首先把一张任务的截图扔给GPT-5.5，然后要求用WebGL和Vite实现一个可交互的3D轨道模拟器，轨迹数据必须来自NASA/JPL Horizons的真实矢量数据，并且还要有逼真的轨道力学。

只见，GPT-5.5从零搭完，鼠标拖拽能转，猎户座飞船、月球、太阳的相对位置都对得上。

再来一个坦克打飞碟。

Prompt要求用Three.js做一个UFO射击游戏，玩家控制坦克击落头顶飞过的飞碟，「低多边形但要好看」，先给出完整文件结构和需要改动的文件清单，再写全部代码，「完成之前不许停」。

GPT-5.5全部照单执行，从文件结构到Three.js渲染到射击判定，一口气交付了一个可玩的3D游戏。

在3D地牢竞技场中，Codex包办游戏架构、TypeScript/Three.js实现、战斗系统、敌人遭遇和HUD反馈。

GPT生成了环境贴图，OpenAI API生成了角色对话，角色模型、贴图和动画来自第三方素材工具。几个AI各管一摊，拼出一款能打怪的游戏。

早期测试的大佬直言， GPT‑5.5拥有更强的理解系统形态的能力。

它更能判断问题出在哪，修复该加在哪，以及代码库中还有哪些地方会受到牵连。

85% OpenAI员工用疯

这才是真正干活的AI

编程之外，GPT-5.5在「知识型工作」上的数据同样亮眼。

毕竟，OpenAI将其称为，「一种面向真实工作的全新智能」。

它能更快地理解你想要做什么，并在不同工具之间切换，直到任务完成。

GDPval，评估AI在44个职业中完成规范知识工作的水平，GPT-5.5拿到84.9%，Opus 4.7是80.3%，Gemini 3.1 Pro只有67.3%。

OSWorld-Verified，测试模型能否独立操作真实电脑环境，GPT-5.5得分78.7%，和Opus 4.7的78.0%几乎打平。

Tau2-bench，测试模型能否在复杂客服工作流中处理多轮对话、查询系统、执行操作。，GPT-5.5在没有微调提示词的情况下达到98.0%。

有意思的是OpenAI自己怎么用的。据官方博客披露，公司内部超过85%的员工每周跨部门使用Codex。

公关部门用GPT-5.5分析了六个月的演讲邀约数据，搭建了评分和风险框架，让低风险请求自动走Slack AI智能体处理。

财务部门审查了24,771份K-1税表，共71,637页，比去年提前两周完成。

市场团队实现了每周业务报告自动生成，每周省5到10个小时。

如今，在Codex中，通过GPT-5.5可与Web应用直接交互，测试流程、点击页面、截取屏幕，并根据所见内容不断迭代，直到完成任务。

如下是，测试入职流程的一个例子。

Codex还可以生成更高质量的电子表格、PPT和文档，如下是一个财务建模的demo。

应用内新增的文件查看器，可加快审阅、修订和迭代速度，让文件更快准备好分享。

在计算机使用上，Codex操作电脑能力更强了。

无论是识别屏幕内容，还是点击、打字、导航，甚至是跨工具流转上下文信息，它都能轻松搞定。

OpenAI研究员Noam Brown直言，有了GPT-5.5，自己也能像专业人士一样编写CUDA内核，运行研究实验。

颠覆科研

证明「拉姆齐数」定理

除了这些，GPT-5.5还协助发现了一个关于拉姆齐数的新证明，并在Lean语言中得到了验证。

拉姆齐数是组合数学的核心研究对象，通俗地说就是一个网络大到什么程度，才一定会出现某种规律性结构。这个领域的新结果极其罕见。

论文地址：https://cdn.openai.com/pdf/6dc7175d-d9e7-4b8d-96b8-48fe5798cd5b/Ramsey.pdf

这个领域的研究成果极其罕见，技术难度极高。GPT-5.5发现了一个关于非对角拉姆齐数长期渐近事实的证明。

不是写代码，不是做解释，是提出了一个有价值的数学论证。

GeneBench上，GPT-5.5得分25.0%，GPT-5.4是19.0%。这个评测专门测多阶段科学数据分析，要求模型在几乎没有人工干预的情况下处理模糊数据、应对隐藏混杂因素。

BixBench，基于真实生物信息学设计的评测，GPT-5.5在所有已公开分数的模型中排名第一，80.5%。

FrontierMath Tier 4，由陶哲轩等顶级数学家策划的前沿数学题库中最难一档，题目涉及代数几何、数论等方向，难度接近未发表研究。

GPT-5.5得分35.4%，GPT-5.4是27.1%，Opus 4.7只有22.9%。差距超过12个百分点。

对比一下Tier 1-3的差距只有8个百分点（51.7% vs 43.8%），说明越到数学前沿，GPT-5.5的优势越悬殊。

Jackson基因医学实验室的免疫学教授Derya Unutmaz用GPT-5.5 Pro分析了一个包含62个样本、近28,000个基因的表达数据集。

模型出具了一份详尽的研究报告，不仅总结了发现，还深挖出关键问题和洞察。相比之下，如果这活儿让人类团队来干，得花上好几个月。

波兹南·密茨凯维奇大学数学助教Bartosz Naskręcki在Codex中，仅用11分钟就从一个单一提示词构建了一个代数几何应用，可视化了二次曲面的交集，并将生成的曲线转换为Weierstrass模型。

从编程到知识工作再到科研，升番到这里，结论摆在眼前。

GPT-5.5不是又一次「小版本迭代」，它是一次全新基座模型带来的整体性跃升。

全方位击败Opus 4.7，就看一张图

总言之，GPT-5.5的诞生，堪称迎来了脱胎换骨的蜕变。对战Opus 4.7，一张图就够了。

另在Vending-Bench中，GPT-5.5同样暴击Opus 4.7。

Opus 4.7的表现跟4.6差不多：老是对供应商撒谎，还在退款上坑顾客。相比之下，GPT-5.5的手段就很正派，而且照样赢下了比赛。

奥特曼还玩个梗，「千万别转，千万别转，千万别转....哎，算了吧，生活终究是在模仿艺术」。

定价翻倍

更强，但也更贵

说完实力，必须说钱。

GPT-5.5的API定价，每百万输入Token 5美元，每百万输出Token 30美元。

GPT-5.4是多少？2.50美元和15美元。

整整翻了一倍。

GPT-5.5 Pro更夸张，输入30美元，输出180美元。

对比一下Opus 4.7，输入5美元，输出25美元。GPT-5.5的输入价格和Opus 4.7持平，但输出贵了20%。

OpenAI给出的解释是token效率提升。同样的Codex任务，GPT-5.5用的token比GPT-5.4明显更少。

更强，而且更高效。

但算一笔账就知道，如果一个团队每月在GPT-5.4上花10万美元，切换到GPT-5.5后即使token用量减少30%，月账单依然会涨到14万美元左右。

换句话说，GPT-5.5是一个「你为更强的智能付更多的钱」的溢价产品。相比之下，GPT-5.4大概率会继续作为性价比之选存在。

OpenClaw已接入最强GPT-5.5

8天，一个时代的缩影

回头看这8天发生了什么。

4月16日，Anthropic用Opus 4.7在SWE-Bench Pro上发起突袭，从GPT-5.4手中夺走编程王座。

4月24日，GPT-5.5正式发布。Terminal-Bench碾压，定价翻倍，科研炸裂。

2026年的AI竞赛，已经不是「谁的模型更强」这一个维度的较量了。

在GPT-5.5的叙事里，OpenAI反复强调的是「探索全新的电脑办公方式」，一个能自主规划任务、调用多种工具、在浏览器和本地软件之间来回切换的通用Agent。

跑分是前菜，Agent化办公才是主战场。谁先定义「AI怎么替人干活」，谁就定义下一代电脑使用界面。

8天一个来回。这个节奏，只会更快。

参考资料：

https://openai.com/index/introducing-gpt-5-5/

https://x.com/OpenAI/status/2047376561205325845?s=20

GPT Claude AGI 框架测试 OpenAI AI OpenClaw ChatGPT

声明：本文转载自新智元，转载目的在于传递更多信息，并不代表本社区赞同其观点和对其真实性负责，本文只提供参考并不构成任何建议，若有版权等问题，点击这里查看更多信息！

GPT-5.5来了！全榜第一碾压Opus 4.7，OpenAI今夜雪耻

aizws = AI 中文社

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。按下 Ctrl+D 或 ⌘+D 收藏本站。

aizws = AI 中文社

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。 按下 Ctrl+D 或 ⌘+D 收藏本站。

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。按下 Ctrl+D 或 ⌘+D 收藏本站。