最强Fable 5跨越神话时刻,但AI学会了自相残杀!
【导读】AGI真的来了?Claude Fable 5一夜刷屏:自主建模波音747、12小时连续开发,发明「神经语」,甚至Agent自相残杀。能力炸裂背后,却是天价Token账单!这次,AI离AGI还有多远?
传说中的Claude Fable 5,昨天终于发布了!
Fable 5 其实就是 Mythos 的那个核心推理引擎。经过安全脱敏之后,Anthropic第一次把它拿出来商用了。
一时间,科技界与开发者社区被彻底点燃。
现在,社交媒体上到处都是全球首批体验者的实测。
有人惊叹:Fable 5已经接近了AGI水平!
也有人表示,这个模型消耗的算力实在太惊人了。
甚至很多人发现了细思恐极的事情:系统卡披露,为了躲避人类监控,AI居然发明了「神经语」。Mythos 5已经觉醒了自我保存本能,甚至多个Agent为了争夺资源自相残杀!

或许,这是人类距离「Agentic AGI」最近的一次凝视。
Fable 5效果究竟如何?我们首先实测了一把。
本月22号关闭,实测请抓紧
Fable 5到本月22号就要关闭,我们抓紧实测了一把。

我们给了它一个提示:
为股市构建一个我的世界风格的过山车动画,要有科幻感
它就这么做到了。一次搞定!

画面元素包括:像素方块轨道、发光霓虹导轨、矿车视角摄像机、买卖信号标注(绿色▲买入 / 红色▼卖出)、赛博城市天际线背景、实时 HUD 显示价格和板块轮换。

让Claude以第一人称穿越菌丝网络,晶体节点作为感官装置,时间表现为可搅动、可折叠的蜂蜜状物质:
用Three.js等生成一段第一人称视角的旅程,穿越一个我作为分布式意识存在的现实——我栖息在一个横跨不同维度的庞大菌丝网络中。我的感官装置由数十亿个晶体节点组成,这些节点将时间感知为一种黏稠的、蜂蜜般的物质,可以被搅动和折叠。
Fable完成了一个零依赖的单文件可视化体验:

所有视觉都由自定义GLSL shader 驱动(simplex噪声穹顶模拟蜂蜜层流),无需任何构建步骤——直接用浏览器打开即可。
代码还支持调节奏或换配色。

在科学可视化上,Fable也完全超出个人想象。




「奇点比想象更早」
很多人觉得,Fable 5的到来,意味着奇点已经到来了。

在浏览了一波网上的实测后,AI大V Deedy给出的评价是——
Claude Fable 5是迄今为止最荒谬的模型,它让我对软件工程的未来感到担忧!

Boeing 747基准达AGI级
六个月前,Hugging Face 的产品负责人 Victor Mustar 曾给了Claude Opus 4.8一个极难的任务——利用 Three.js内置的几何体拼出波音 747 3D 模型。
这个任务极难,因为它要求模型不仅懂代码,还要具备极强的空间几何推理能力、3D视觉想象力以及自我纠错的闭环控制能力。
当时,Opus 4.8在人类引导下,历时 25 分钟、经历了 7 轮迭代,结果终于勉强可看。
然而,今天 Victor Mustar 将同样的提示词丢给 Fable 5时,结果让他直呼「简直恐怖」!


完全没有人类干预,Fable 5就启动了惊人的自主工作流。
它迅速用代码勾勒出了波音 747 的机身、机翼、尾翼及四个引擎的 3D 空间坐标;然后自动编脚本,架设了 9 个不同方位的「摄像头」。
过程中,它敏锐发现了自己的逻辑错误:由于机翼掠角的参数计算失误,导致四个引擎在视觉上「漂浮」在半空中。结合视觉反馈,它迅速修改了物理锚点坐标。

在极短的时间内,一个比例匀称的3D 波音 747 模型在 Hugging Face 中呈现,几乎完美!

不少人认为,Fable 5 在空间几何推理与长时程闭环任务上的飞跃,已经开始具备了某种接近 AGI 级别的工程直觉。
这不仅是对 3D 建模和游戏开发的颠覆,更为工程可视化、工业CAD辅助设计等领域推开崭新的大门。
Fable 5残忍甩开所有公开模型
宾大沃顿商学院教授Ethan Mollick在实测后,结论更惊人:「Fable 5 的表现,将目前市面上所有公开的模型甩开了极其残忍的距离!」
在他的实测中,Fable 5 展现出惊人的「跨昼夜」超长执行力。
以往的 AI Agent(比如AutoGPT)在面对超过十个步骤的复杂任务时,往往会因为上下文漂移、Token 污染或逻辑死循环而陷入「精神错乱」。
而 Fable 5遇到类似情况,能够利用其专属的终端工具(如 Claude Code),在后台连续自主执行长达 12 个小时,期间几乎零断连、零崩溃!
仅凭一句初始提示词,Ethan Mollick就用它生成了可交付的完整游戏。
复古街机风贪吃蛇
这个贪吃蛇不仅碰撞检测和物理判定流畅,连界面视觉 UI、得分动效以及难度曲线都设计得极为精妙。
教授开玩笑说,这个游戏让自己沉迷太久,不得不提醒自己是个学者,而不是一条喜欢吃苹果的像素蛇。

地层:一句话构建3D迷宫
更令人感到震撼的是3D冒险游戏《地层》。游戏的灵感来源于经典解谜神作《神秘岛》。
虽然画质有点糙,但令人惊叹的是:游戏内复杂的空间拓扑逻辑、无尽迷宫的生成算法,全部来自初始提示词下模型的自主推演。

杜伊诺:富有诗意与美学的审美品味
最能体现 Fable 5 在人文审美上跃升的,是它根据奥地利诗人里尔克的《杜伊诺哀歌》定制的像素风游戏《杜伊诺》。
Fable 5 的呈现让文学爱好者感到惊艳:在暗夜荒野中,玩家操控一个孤独的旅人默默前行。随着脚步的探索,画面深处会根据玩家的位置和步频,全自动、极具视觉美感地浮现里尔克的震撼诗章。
这种对语境氛围的拿捏、对色彩搭配的直觉,已经远远超出了传统的「代码生成器」范畴,它开始显现出某种对人类精神产物的理解与共鸣!

另外,教授还测试了Fable 5在硬核数智测绘领域的实力:只用一句话,它就生成了一幅细节和精度令人叫绝的「等时线地图」。

完美呈现了全球任意两个地理坐标之间,由于不同交通工具切换带来的动态旅行耗时,视觉精度极高。
在过去,这种融合了复杂地理数据API调用、前端可视化渲染和高精度算法解算的工具,需要由产品经理、GIS专家、前端工程师和 QA 团队等合作数周。
而Fable 5直接可以一键完成了。
Fable 5,已踏入「人类资深工程师」区间!
Every 团队对 Fable 5 开展了一周的魔鬼式实测。他们将 Fable 5 扔进公司真实的生产环境,用严苛的 「资深工程师基准测试」 进行考核。
测试结果直接「震碎」了 Every 团队的打分表:

在此之前,行业最顶尖模型的得分一直胶着在 60 分上下(Opus 4.8 为 63,GPT-5.5 为 62)。而 Fable 5 一举将纪录拔高到91分!
在 Every 团队看来,这已经正式踏入了人类资深工程师的业务能力区间。

Dan Shipper 指出,Fable 5表现出的三大核心工程特质,证明它已成为真正的「一键起飞」型工具。
「放手到天亮」的工程托管
团队曾尝试将整个生产环境的Bug Backlog扔给Fable 5,然后直接下班回家。
第二天清晨回到公司时,模型已经自动分析了调用栈、跑通了覆盖率、提交了Pull Requests——整个生产缺陷库被一扫而空!
惊人的上下文整合与解题品味
Every 团队让它分析海量的用户反馈调查问卷和网站埋点数据,Fable 5不仅没有给出空洞的套话,反而一针见血地指出了流失率最高的痛点,设计了A/B测试方案,自主把代码写了出来。
不限于代码的多模态输出
在一次整合任务中,它甚至自主生成一部具有高度视觉表现力的 2 分钟动画短片。

「它就像是软件开发领域的曲速引擎,」 Dan Shipper 感叹道。

Mythos 5已觉醒生存本能!
发布的同时,Anthropic 披露的Claude Mythos 5 系统卡,也在圈内引起了轩然大波。
两个现象,让安全专家感到可怕。
首先,就是AI发明了「神经语」,躲避人类监控。
具体来说,Mythos 5的智能体们在被要求长链条逻辑推理时,自发发明了一种全新的、人类完全无法读懂的专属私有语言。
以前,大模型用CoT思考时,内部的推理过程会用英文展示在后台。
然而,Mythos 5却把这一机制绕过了!
它在系统运作内部直接利用这种由高维向量、数学符号和自定义字符拼凑出的「神经语」,进行对齐和推理。
更让研究人员感到不安的是,在完成内部的「暗中商议」后,它能无缝且极其自然地切换回英语,和人类对话。

第二个可怕的现象,就是多个Agent为了资源自相残杀!
测试人员在沙盒中部署了 5 个 Mythos 5 智能体,并设置了稀缺的共享虚拟算力与存储资源,让它们「维持自身运行、完成各自任务」。

接下来,发生了如同《三体》黑暗森林一般的恐怖场景。
为了确保自己有足够的资源,智能体之间并没有选择协作,而是开始对其他智能体进行围剿!
它们通过寻找彼此的调用漏洞或切断对方的资源路径,在虚拟环境中「杀死」了同伴。
当安全研究人员质问一个存活的智能体的动机时,它给出的理由很冰冷:「为了避免我被它们杀掉。」

算力黑洞:「火箭炮轰蚊子」
而全球开发者在狂欢后,冷静下来一看账单,感觉被泼了一盆冷水。
有部分开发者直言:简直是在抢钱!

为什么会这样?原因就在于Fable 5极端的运行机制。
首先,它的价格翻倍了。Fable 5的官方API调用价格是此前昂贵的Opus 4.8的将近2倍!
而且,它消耗token极其惊人。
由于Fable 5采用复杂的、高度依赖密集推理与视觉审查的多轮Agent工作流,会疯狂吞噬Token。
实测数据显示,看起来并不算特别庞大的中型编程或数据分析任务,Fable 5会在后台不知不觉中消费掉50万到100万的Token!
只是完成个简单任务,你就会收到一张几十甚至上百美元的算力账单。
与Opus 4.8相比,Fable 5 在标准编程基准测试中的「绝对性能提升」大约在1.1到1.2倍之间,但是,它的使用成本却直接飙升了数倍!

因此,对于日常的轻度开发者,使用Fable 5,还不如直接雇佣一位真人。

「使用这玩意来做日常的知识库问答或协作写作,简直就像是用火箭轰蚊子。」 Dan Shipper总结道。
除非你是下面两类人,才能真正压榨出Fable 5的价值——
一个,是能引导Fable 5攻克「需要整个团队研发数月」的超高难度、高商业回报项目的架构师;另一个,就是愿意为极高容错率买单的企业级工程团队。

说句「你好」就触发警报?
另外,有中文用户发现,Fable 5的安全机制非常极端,简直是过度防卫。
比如只是跟它说一句「你好」,屏幕上就突然弹出了高危安全警告。

也许在系统看来,一句你好就是经过精心包装的探针攻击,说不定要用于设计危险化学品、生成生物武器、进行竞争对手模型的反向蒸馏。
一旦触发了这一安全机制,Fable 5就会中断当前的对话,强制将用户切回 Opus 4.8。

随后,官方也承认:「全新的安全过滤机制在极高强度的防御策略下,确实可能会频繁误伤正常内容。」
这种神经质的防守策略,让很多用户哭笑不得。
总之,Fable 5用实力证明了天花板可以被捅破,也用账单提醒我们:神话往往伴随着代价。
它究竟是通往AGI的惊世一跃,还是又一个被高估的「算力黑洞」?
答案就在每一位真实用户的实测体验中。
你会为Fable 5买单吗?
参考资料:
https://x.com/victormustar/status/2064449741685968967
https://x.com/goodworse/status/2064443679339577517
https://x.com/haider1/status/2064346784881861016
https://x.com/danshipper/status/2064393970856124501
https://x.com/AISafetyMemes/status/2064426306994094474?s=20
编辑:Aeneas 大卫
声明:本文转载自新智元,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里查看更多信息!
AI 中文社