最强Fable 5跨越神话时刻，但AI学会了自相残杀！

2026-06-10 发布浏览207次点赞0次收藏0次

【导读】AGI真的来了？Claude Fable 5一夜刷屏：自主建模波音747、12小时连续开发，发明「神经语」，甚至Agent自相残杀。能力炸裂背后，却是天价Token账单！这次，AI离AGI还有多远？

传说中的Claude Fable 5，昨天终于发布了！

Fable 5 其实就是 Mythos 的那个核心推理引擎。经过安全脱敏之后，Anthropic第一次把它拿出来商用了。

一时间，科技界与开发者社区被彻底点燃。

现在，社交媒体上到处都是全球首批体验者的实测。

有人惊叹：Fable 5已经接近了AGI水平！

也有人表示，这个模型消耗的算力实在太惊人了。

甚至很多人发现了细思恐极的事情：系统卡披露，为了躲避人类监控，AI居然发明了「神经语」。Mythos 5已经觉醒了自我保存本能，甚至多个Agent为了争夺资源自相残杀！

或许，这是人类距离「Agentic AGI」最近的一次凝视。

Fable 5效果究竟如何？我们首先实测了一把。

本月22号关闭，实测请抓紧

Fable 5到本月22号就要关闭，我们抓紧实测了一把。

我们给了它一个提示：

为股市构建一个我的世界风格的过山车动画，要有科幻感

它就这么做到了。一次搞定！

画面元素包括：像素方块轨道、发光霓虹导轨、矿车视角摄像机、买卖信号标注（绿色▲买入 / 红色▼卖出）、赛博城市天际线背景、实时 HUD 显示价格和板块轮换。

让Claude以第一人称穿越菌丝网络，晶体节点作为感官装置，时间表现为可搅动、可折叠的蜂蜜状物质：

用Three.js等生成一段第一人称视角的旅程，穿越一个我作为分布式意识存在的现实——我栖息在一个横跨不同维度的庞大菌丝网络中。我的感官装置由数十亿个晶体节点组成，这些节点将时间感知为一种黏稠的、蜂蜜般的物质，可以被搅动和折叠。

Fable完成了一个零依赖的单文件可视化体验：

所有视觉都由自定义GLSL shader 驱动（simplex噪声穹顶模拟蜂蜜层流），无需任何构建步骤——直接用浏览器打开即可。

代码还支持调节奏或换配色。

在科学可视化上，Fable也完全超出个人想象。

「奇点比想象更早」

很多人觉得，Fable 5的到来，意味着奇点已经到来了。

在浏览了一波网上的实测后，AI大V Deedy给出的评价是——

Claude Fable 5是迄今为止最荒谬的模型，它让我对软件工程的未来感到担忧！

Boeing 747基准达AGI级

六个月前，Hugging Face 的产品负责人 Victor Mustar 曾给了Claude Opus 4.8一个极难的任务——利用 Three.js内置的几何体拼出波音 747 3D 模型。

这个任务极难，因为它要求模型不仅懂代码，还要具备极强的空间几何推理能力、3D视觉想象力以及自我纠错的闭环控制能力。

当时，Opus 4.8在人类引导下，历时 25 分钟、经历了 7 轮迭代，结果终于勉强可看。

然而，今天 Victor Mustar 将同样的提示词丢给 Fable 5时，结果让他直呼「简直恐怖」！

完全没有人类干预，Fable 5就启动了惊人的自主工作流。

它迅速用代码勾勒出了波音 747 的机身、机翼、尾翼及四个引擎的 3D 空间坐标；然后自动编脚本，架设了 9 个不同方位的「摄像头」。

过程中，它敏锐发现了自己的逻辑错误：由于机翼掠角的参数计算失误，导致四个引擎在视觉上「漂浮」在半空中。结合视觉反馈，它迅速修改了物理锚点坐标。

在极短的时间内，一个比例匀称的3D 波音 747 模型在 Hugging Face 中呈现，几乎完美！

不少人认为，Fable 5 在空间几何推理与长时程闭环任务上的飞跃，已经开始具备了某种接近 AGI 级别的工程直觉。

这不仅是对 3D 建模和游戏开发的颠覆，更为工程可视化、工业CAD辅助设计等领域推开崭新的大门。

Fable 5残忍甩开所有公开模型

宾大沃顿商学院教授Ethan Mollick在实测后，结论更惊人：「Fable 5 的表现，将目前市面上所有公开的模型甩开了极其残忍的距离！」

在他的实测中，Fable 5 展现出惊人的「跨昼夜」超长执行力。

以往的 AI Agent（比如AutoGPT）在面对超过十个步骤的复杂任务时，往往会因为上下文漂移、Token 污染或逻辑死循环而陷入「精神错乱」。

而 Fable 5遇到类似情况，能够利用其专属的终端工具（如 Claude Code），在后台连续自主执行长达 12 个小时，期间几乎零断连、零崩溃！

仅凭一句初始提示词，Ethan Mollick就用它生成了可交付的完整游戏。

复古街机风贪吃蛇

这个贪吃蛇不仅碰撞检测和物理判定流畅，连界面视觉 UI、得分动效以及难度曲线都设计得极为精妙。

教授开玩笑说，这个游戏让自己沉迷太久，不得不提醒自己是个学者，而不是一条喜欢吃苹果的像素蛇。

地层：一句话构建3D迷宫

更令人感到震撼的是3D冒险游戏《地层》。游戏的灵感来源于经典解谜神作《神秘岛》。

虽然画质有点糙，但令人惊叹的是：游戏内复杂的空间拓扑逻辑、无尽迷宫的生成算法，全部来自初始提示词下模型的自主推演。

杜伊诺：富有诗意与美学的审美品味

最能体现 Fable 5 在人文审美上跃升的，是它根据奥地利诗人里尔克的《杜伊诺哀歌》定制的像素风游戏《杜伊诺》。

Fable 5 的呈现让文学爱好者感到惊艳：在暗夜荒野中，玩家操控一个孤独的旅人默默前行。随着脚步的探索，画面深处会根据玩家的位置和步频，全自动、极具视觉美感地浮现里尔克的震撼诗章。

这种对语境氛围的拿捏、对色彩搭配的直觉，已经远远超出了传统的「代码生成器」范畴，它开始显现出某种对人类精神产物的理解与共鸣！

另外，教授还测试了Fable 5在硬核数智测绘领域的实力：只用一句话，它就生成了一幅细节和精度令人叫绝的「等时线地图」。

完美呈现了全球任意两个地理坐标之间，由于不同交通工具切换带来的动态旅行耗时，视觉精度极高。

在过去，这种融合了复杂地理数据API调用、前端可视化渲染和高精度算法解算的工具，需要由产品经理、GIS专家、前端工程师和 QA 团队等合作数周。

而Fable 5直接可以一键完成了。

Fable 5，已踏入「人类资深工程师」区间！

Every 团队对 Fable 5 开展了一周的魔鬼式实测。他们将 Fable 5 扔进公司真实的生产环境，用严苛的「资深工程师基准测试」进行考核。

测试结果直接「震碎」了 Every 团队的打分表：

在此之前，行业最顶尖模型的得分一直胶着在 60 分上下（Opus 4.8 为 63，GPT-5.5 为 62）。而 Fable 5 一举将纪录拔高到91分！

在 Every 团队看来，这已经正式踏入了人类资深工程师的业务能力区间。

Dan Shipper 指出，Fable 5表现出的三大核心工程特质，证明它已成为真正的「一键起飞」型工具。

「放手到天亮」的工程托管

团队曾尝试将整个生产环境的Bug Backlog扔给Fable 5，然后直接下班回家。

第二天清晨回到公司时，模型已经自动分析了调用栈、跑通了覆盖率、提交了Pull Requests——整个生产缺陷库被一扫而空！

惊人的上下文整合与解题品味

Every 团队让它分析海量的用户反馈调查问卷和网站埋点数据，Fable 5不仅没有给出空洞的套话，反而一针见血地指出了流失率最高的痛点，设计了A/B测试方案，自主把代码写了出来。

不限于代码的多模态输出

在一次整合任务中，它甚至自主生成一部具有高度视觉表现力的 2 分钟动画短片。

「它就像是软件开发领域的曲速引擎，」 Dan Shipper 感叹道。

Mythos 5已觉醒生存本能！

发布的同时，Anthropic 披露的Claude Mythos 5 系统卡，也在圈内引起了轩然大波。

两个现象，让安全专家感到可怕。

首先，就是AI发明了「神经语」，躲避人类监控。

具体来说，Mythos 5的智能体们在被要求长链条逻辑推理时，自发发明了一种全新的、人类完全无法读懂的专属私有语言。

以前，大模型用CoT思考时，内部的推理过程会用英文展示在后台。

然而，Mythos 5却把这一机制绕过了！

它在系统运作内部直接利用这种由高维向量、数学符号和自定义字符拼凑出的「神经语」，进行对齐和推理。

更让研究人员感到不安的是，在完成内部的「暗中商议」后，它能无缝且极其自然地切换回英语，和人类对话。

第二个可怕的现象，就是多个Agent为了资源自相残杀！

测试人员在沙盒中部署了 5 个 Mythos 5 智能体，并设置了稀缺的共享虚拟算力与存储资源，让它们「维持自身运行、完成各自任务」。

接下来，发生了如同《三体》黑暗森林一般的恐怖场景。

为了确保自己有足够的资源，智能体之间并没有选择协作，而是开始对其他智能体进行围剿！

它们通过寻找彼此的调用漏洞或切断对方的资源路径，在虚拟环境中「杀死」了同伴。

当安全研究人员质问一个存活的智能体的动机时，它给出的理由很冰冷：「为了避免我被它们杀掉。」

算力黑洞：「火箭炮轰蚊子」

而全球开发者在狂欢后，冷静下来一看账单，感觉被泼了一盆冷水。

有部分开发者直言：简直是在抢钱！

为什么会这样？原因就在于Fable 5极端的运行机制。

首先，它的价格翻倍了。Fable 5的官方API调用价格是此前昂贵的Opus 4.8的将近2倍！

而且，它消耗token极其惊人。

由于Fable 5采用复杂的、高度依赖密集推理与视觉审查的多轮Agent工作流，会疯狂吞噬Token。

实测数据显示，看起来并不算特别庞大的中型编程或数据分析任务，Fable 5会在后台不知不觉中消费掉50万到100万的Token！

只是完成个简单任务，你就会收到一张几十甚至上百美元的算力账单。

与Opus 4.8相比，Fable 5 在标准编程基准测试中的「绝对性能提升」大约在1.1到1.2倍之间，但是，它的使用成本却直接飙升了数倍！

因此，对于日常的轻度开发者，使用Fable 5，还不如直接雇佣一位真人。

「使用这玩意来做日常的知识库问答或协作写作，简直就像是用火箭轰蚊子。」 Dan Shipper总结道。

除非你是下面两类人，才能真正压榨出Fable 5的价值——

一个，是能引导Fable 5攻克「需要整个团队研发数月」的超高难度、高商业回报项目的架构师；另一个，就是愿意为极高容错率买单的企业级工程团队。

说句「你好」就触发警报？

另外，有中文用户发现，Fable 5的安全机制非常极端，简直是过度防卫。

比如只是跟它说一句「你好」，屏幕上就突然弹出了高危安全警告。

也许在系统看来，一句你好就是经过精心包装的探针攻击，说不定要用于设计危险化学品、生成生物武器、进行竞争对手模型的反向蒸馏。

一旦触发了这一安全机制，Fable 5就会中断当前的对话，强制将用户切回 Opus 4.8。

随后，官方也承认：「全新的安全过滤机制在极高强度的防御策略下，确实可能会频繁误伤正常内容。」

这种神经质的防守策略，让很多用户哭笑不得。

总之，Fable 5用实力证明了天花板可以被捅破，也用账单提醒我们：神话往往伴随着代价。

它究竟是通往AGI的惊世一跃，还是又一个被高估的「算力黑洞」？

答案就在每一位真实用户的实测体验中。

你会为Fable 5买单吗？

参考资料：

https://x.com/victormustar/status/2064449741685968967

https://x.com/goodworse/status/2064443679339577517

https://x.com/haider1/status/2064346784881861016

https://x.com/danshipper/status/2064393970856124501

https://x.com/AISafetyMemes/status/2064426306994094474?s=20

编辑：Aeneas 大卫

体验苹果 AI 写作 Agent 算力大模型性能 GPT 分表 AGI Claude Code C Claude 测试

声明：本文转载自新智元，转载目的在于传递更多信息，并不代表本社区赞同其观点和对其真实性负责，本文只提供参考并不构成任何建议，若有版权等问题，点击这里查看更多信息！

最强Fable 5跨越神话时刻，但AI学会了自相残杀！

aizws = AI 中文社

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。按下 Ctrl+D 或 ⌘+D 收藏本站。

aizws = AI 中文社

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。 按下 Ctrl+D 或 ⌘+D 收藏本站。

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。按下 Ctrl+D 或 ⌘+D 收藏本站。