Claude Opus 4.8实测封神!强到离谱,也贵到肉痛

浏览32次 点赞0次 收藏0次

【导读】传说中的Claude Opus 4.8,性能真的如此强大吗?有人高呼封神,直言这是Opus 5,有人吐槽太拉了,还不如Opus 4.7,技术大佬也来拆台。是夯爆了还是拉完了?一文深度看透。

Anthropic王者归来!

深夜,Anthropic全新发布Claude Opus 4.8,一举夺回全球AI王座。

Opus 4.8被定位为一款更强大的复杂任务模型,尤其是在编程、智能体任务和长时间推理方面。

更狠的是,神秘的Mythos几周之内即将面世!


而且,趁着这股东风,Anthropic紧接着宣布好消息——

以9650亿美元估值完成650亿美元融资,超越62天前OpenAI的8520亿美元的估值!


不过,当人们实测过后,整个科技界瞬间分裂成了两个截然不同的阵营。


一方面,是以知名评测媒体Every和部分硬核生产力用户为首的「狂热派」。

他们高呼Opus 4.8已经「封神」,甚至直言Anthropic这次实在是太低调了,他们完全可以直接叫它Opus 5,根本不会有人有异议。

他们直言,Opus 4.8是目前市面上「最全面、最接近人类灵魂与顶尖工程师结合体」的模型。


但另一方面,以Ruby on Rails创始人DHH、Redis之父antirez为首的「开发者老炮」,却在社交网络上公开拆台。

他们认为Opus 4.8的跑分虽然险胜老对手GPT-5.5,但实际的「编码体感」却依然落后,甚至直指Anthropic在基准测试的宣传上犯了重大错误。

一方面,它的「快速模式」、「动态工作流」看起来都很杀手级,另一方面,桌面端的体验,似乎又很拉垮。


Opus 4.8用起来的真实体感,究竟如何?

这是一次名不副实的挤牙膏,还是一次真正的大跃迁?

接下来,就让我们揭开全貌!


这不是Opus 4.8,是Opus 5!

首先,是以Every团队为代表的正方。

在长达一周的深度测试后,他们得出了震撼结论——这是我们测试过的最强模型,它简直是个怪物。

甚至可以说,它可以被叫做Opus 5。



暴涨30分的资深工程师基准

在极难的「高级工程师基准」测试中,上一代Opus 4.7曾让无数开发者大失所望,被指责为「难以使用、难以热爱」。

但Opus 4.8这一次打了一场漂亮的翻身仗。

在「超高强度」模式下,Opus 4.8拿下了63分的高分,不仅比Opus 4.7夸张地暴涨了30分,更是以1分的微弱优势,险胜了一直霸榜的GPT-5.5(62分)。


团队试着让它去彻底重构一个生产级别的代码库,结果Opus 4.8真的交付了一个能够完美运行的系统!


结果说明,Opus 4.8绝不仅仅是一个补全工具,而是一个能在Repo(代码仓库)级别进行长线思考的架构师。

79.6分全场最高:击穿AI感的最强写手

如果说代码能力是理科生的浪漫,那么写作能力则是衡量模型EQ的终极标准。

在Every的写作基准测试中(涵盖论文、推广邮件、长篇叙事等真实场景),Opus 4.8直接艳压一众模型。


Opus 4.8跑出了79.6的绝对高分,远远甩开了自家兄弟Sonnet 4.6(74.5)、老对手GPT-5.5(73)以及前代Opus 4.7(63)。

「这是一种非常奇妙的体验。」多位创作者反馈。Opus 4.8极大地减少了令人不适的「AI味」。


当你给它一份风格指南后,它能异常精准地模仿你的语气。

它甚至展现出了极高的心理学和人际交往洞察力,当你试图和它探讨一些深刻的心理问题时,它的回答毫不敷衍,而是会「质疑你的预设框架」,提供丰富、动态且极其具有深度的思考过程。

100万Token的统治力,企业级应用一把过

除了跑分,Opus 4.8在复杂知识工作中的表现堪称怪兽。

它依然保持了100万Token的超大上下文窗口,这意味着你可以把一整本书的手稿、几周的会议记录,甚至一个完整的企业代码库一口气塞给它。


最让商业咨询圈震惊的是,在企业级PPT生成测试中,Opus 4.8在Zero-shot的情况下,产出了一份结构清晰、设计合理、叙事逻辑堪称完美的PPT。这是过去所有模型都无法做到的。

知名云存储服务商Box,也在第一时间将Opus 4.8接入了其Box AI Agent并在真实企业数据上进行了测试,结果呈现出碾压态势。



· 报告起草:在工业品报告任务中,4.8得分87%(对比4.7的77%);消费品发布评估任务中,得分高达90%。

· 法律审查:Opus 4.8能够极其精准地抓取合规标准,找出潜在的合同漏洞,并在多次独立测试中保持近乎完美的稳定性。

· 财务数据分析:在复杂的银团贷款与双边贷款结构对比中,从繁杂的源文档中提取准确财务指标的能力,比上一代提升了近8个百分点。



沃顿商学院教授Ethan Mollick的实测更是令人拍案叫绝。

他把几年前数百份去匿名化的研究文件扔进Claude Code中的Opus 4.8。

结果,Opus 4.8自主完成了提前提出假设、数据清洗、寻找参考文献、进行深度分析、稳健性检验,最后直接用LaTeX格式排版输出了一篇高度专业的小型学术论文!


有趣的是,Mollick教授用GPT-5.5 Pro作为这篇论文的「审稿人」,GPT-5.5挑出了一个幻觉错误和几个小问题,随后Opus 4.8立刻虚心接受,完美修正。


或许这就是为什么Every的CEO Dan Shipper激动地将Opus 4.8称为自己的「心头好」。

一个不可思议的软件工程师,同时又是一个拥有深度和同理心的近乎人类的作家,二者完美相融。


沃顿商学院教授实测的一个Opus 4.8惊艳案例

被群嘲的桌面端与「高智商税」

如此强大的模型,为何没有在全网形成绝对的碾压之势?

因为Opus 4.8身上背负着两个沉重的枷锁。

「大力出奇迹」的代价,是被智商分级绑架

评测机构很快发现了一个尴尬的事实:Opus 4.8的「神级表现」,可以说是病态地依赖于你给它设定的推理强度(Effort Level)。

在/effort的设定中,只有当档位拉到「Extra-High」时,Opus 4.8才是那个得分63的资深工程师;一旦降级到「High」,它的编码得分会瞬间暴跌至42,秒变平庸码农。

在写作上也是如此。High档位下的Opus 4.8文笔优雅、逻辑严密;但一旦切到Medium,它就会瞬间原形毕露,暴露出AI最糟糕的套路化写作恶习。


网友Haider尖锐地指出了这背后的技术退步:

我注意到了一个现象,4.8在低强度下消耗的Token,几乎和4.6在高强度下一样多。

GPT-5.5倾向于用更少的Token拿到更高的分数;而4.8似乎走向了反面,它在用海量的Token堆砌智能。


这就导致了Opus系列一直被诟病的硬伤——Rate Limits。

由于高强度模式极度消耗资源,大量订阅了$200/月Max套餐的高端用户反馈,在运行复杂Agent任务时,常常几个小时就会撞上额度墙。


网友BridgeMind直言,自己为了测试连续烧穿了两个200美元的账号。


显然,相较于OpenAI庞大算力支撑下的宽容生态,Anthropic显得过于抠门了。

混乱的UI设计

如果说模型是引擎,那么客户端应用就是底盘。而Claude的底盘,正在严重拖累这台跑车。

多位深度评测者指出,Claude桌面端的设计简直是一场灾难。

Chat、Code、Cowork三个独立标签页的分割,被指责为「混乱不堪」。


这种割裂的UI设计,被戏称是「带着时间推移的伤疤和Anthropic内部组织架构图的缩影」。(太亮了)

相比之下,OpenAI的Codex桌面端应用被公认为是「干净、快速,让人感觉这就是未来」。

Opus 4.8的硬核实力确实让很多人想回归Claude,但糟糕的软件交互体验,最终还是让很多人把GPT-5.5+Codex作为日常主力,只在处理复杂任务时,才会捏着鼻子切回Claude。


极其糟糕的「笼子」

大牛工程师Anthony Koeger是这样评价的:最近流行的这句话实在太对了,「一个模型的好坏,取决于套在它外面的那层壳(A model is only as good as its harness)。」


而Opus这次有些拉跨。


是关于「诚实」的营销,还是「跑分陷阱」下的战略失误?

伴随着Opus 4.8的发布,全网也爆发了一场关于大模型「跑分意义的空前激辩。

这场争论的导火索,就是一张Anthropic自己制作的官方发布图。

眼尖的网友Aakash Gupta发现了一个极不寻常的细节——

在Anthropic发布的各模型能力对比图中,在TerminalCoding这一项上,GPT-5.5的成绩是78.2%,而Opus 4.8只有74.6%。


正常情况下,任何一家大厂的公关部,都会把输掉的测试项悄悄从PPT上抹去。

但Anthropic没有,他们不仅把失败留在了图表上,甚至还主动把GPT-5.5那代表胜利的78.2%做了加粗处理。

Aakash对此大加赞赏,认为这显示出Opus4.8的核心卖点——诚实。


在大型Agent任务中,模型最昂贵、最致命的失败模式,就是「过度自信」。

而Opus 4.8最大的隐性升级,就是它更愿意承认自己不确定。官方数据显示,4.8在代码中留下缺陷却不声张的概率,比4.7降低了惊人的4倍。

这次,Anthropic卖的不是跑分,而是诚实。



在Vending Bench测试中,Claude Opus 4.8的表现也远逊于Opus 4.7和GPT 5.5

然而,业界大佬们并不买账。

Ruby on Rails创始人和Redis之父,这两位在开发者社区拥有极高话语权的大神,直接对Anthropic开炮。

DHH坦言,自从用了GPT-5.5之后,他经历了无数次震撼时刻,这是他在Claude阵营很久没有体会到的了。

antirez更是尖锐地指出,Anthropic这次把GPT-5.5放在同一张图里对比,犯了一个「重大的战略错误」。


过去的厂商比拼,往往是拿新一代模型和自己的上一代比。

但这次,Anthropic非要和GPT-5.5比。问题在于,现在全网的「体感」是,GPT-5.5的写代码能力非常、非常强悍。

当你Anthropic拿着一张图表,告诉大家你的Opus4.8跑分比GPT-5.5还要高。

但我们用起来却觉得并非如此时,你不仅不能证明你更强,反而会让用户觉得你们的基准测试是在自娱自乐,彻底失去公信力。


网友aditya的吐槽更是直击灵魂:

用了快一个小时的Opus 4.8,它根本不值得炒作。

几个很普通的工程任务,它全搞砸了。


在前端领域,网友也感到失落:「用了几个小时4.8,感觉还不如4.7顺手。」


这一现象印证了AI大V Chubby的观察:Anthropic现在仿佛在拼命追赶OpenAI,而不是以前那样在引领整个行业了。


面对即将到来的GPT-5.6,Anthropic的王座显得摇摇欲坠。



有人做了一个速查表,结论是GPT 5.5和Opus 4.8的胜负取决于推理能力和获得第一个token的时间



6周的赶工,Anthropic这次急了

为什么Opus 4.8 会呈现出如此复杂、矛盾的评价?

一个不容忽视的数据是:Opus 4.8距离上一代4.7的发布,仅仅隔了6个星期。

这是Anthropic历史上最快的一次大版本迭代(此前每个Opus版本的间隔至少在10周以上)。

资深观察家BridgeMind一针见血地指出了真相:「这完全是一次仓促的发布,因为GPT-5.5正在疯狂蚕食市场份额。」


那么,真正的杀招在哪里?

据多方消息证实,Anthropic真正的下一代旗舰模型,代号为Mythos,几周内就会面世。

「Opus 4.8只是一个过渡的创可贴,它修补了4.7的一些毛病,去几个Agent榜单上刷了存在感。」业内人士指出,「如果你在期待真正的智能质变,请屏息等待Mythos。」

网友Machina的一段话,或许是对Opus 4.8发布最贴切的解读。

我们已经跨过了那条线——现在的旗舰模型,已经超出了绝大多数普通人分辨其优劣的能力上限。所以,现在世界上只剩下唯一一个真实的Benchmark,那就是你自己的工作流。

如果连你在自己最烂熟于心的工作上都感觉不出差异,那么这些跑分对你来说,就没有任何意义。


Opus 4.8到底是神作,还是一次仓促的公关手段?

调出你最难啃的那个项目,让实测给你答案吧。

参考资料:

https://every.to/vibe-check/opus-4-8-vibecheck

https://x.com/bridgemindai/status/2060107380159852900

https://x.com/danshipper/status/2060043738752422304?s=20

编辑:Aeneas 大卫

声明:本文转载自新智元,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里查看更多信息!本站拥有对此声明的最终解释权。如涉及作品内容、版权和其它问题,请联系我们删除,我方收到通知后第一时间删除内容。

点赞(0) 收藏(0)
0条评论
珍惜第一个评论,它往往能得到较好的回响。
评论
游客
游客
登录后再评论
  • 鸟过留鸣,人过留评。
  • 和谐社区,和谐点评。
最新资讯