AI 老板 500 天模拟经营:多数模型亏惨,Claude Fable 5 独占鳌头
6 月 30 日消息,普林斯顿大学本月发布基准测试 CEO-Bench,模拟创业公司,评估 AI 模型担任企业首席执行官(CEO)的能力,结果多数模型破产。
CEO-Bench 主要面向企业经营场景,用于评估智能体在长期、多变量环境中的管理能力。该测试模拟创业公司运行 500 天,启动资金为 100 万美元(注:现汇率约合 680.4 万元人民币),要求模型连续处理定价、预算、竞争分析和战略制定等复杂关联事务。
该基准围绕着 AI 应对长期周期中的不确定性、在噪声环境中获取信息、适应变化中的外部世界、协调多个变量以服务统一目标四项能力设计。

智能体按周行动,可无限轮调用 34 个工具,覆盖定价、增长、产品、运维、信息获取、公共传播和企业销售等类别,同时可查询 19 个业务 SQL 数据库。
模拟环境包含 26 个客户群体,客户的价格承受力和质量偏好对智能体不可见,智能体只能从订阅、流失、支持工单、收入、声誉和社交媒体反馈中间接推断。
产品质量由多项投入共同决定,包括日常开发、研究项目、模型层级、定向开发、基础设施容量、客服支持、使用配额和应用内广告强度等。
结果显示,多数当前模型难以在 500 天后保住初始 100 万美元现金。最佳单次运行中,Claude Fable 5 期末现金为 4715 万美元。
| 模型 | 破产 | 最高期末现金 | 最长运营天数 | 平均运营天数 | 每周执行轮数 | 最佳 API 运行成本 |
|---|---|---|---|---|---|---|
| Claude Fable 5* | 0/2 | $47,148,164 | 500 | 500.0 ± 0.0 | 15.4 | $386.46 |
| Claude Opus 4.8 | 0/3 | $27,777,568 | 500 | 500.0 ± 0.0 | 10.9 | $213.41 |
| GPT-5.5 | 2/3 | $21,297,707 | 500 | 333.7 ± 229.7 | 34.7 | $200.49 |
| Qwen 3.7 Max | 0/3 | $417,918 | 500 | 500.0 ± 0.0 | 6.1 | -- |
| Claude Opus 4.7 | 0/3 | $389,959 | 500 | 500.0 ± 0.0 | 14.6 | $128.72 |
| Kimi K2.6 | 1/3 | $98,050 | 500 | 343.0 ± 110.0 | 30.5 | -- |
| GLM 5.2 | 0/3 | $91,371 | 500 | 500.0 ± 0.0 | 12.9 | -- |
| Claude Sonnet 4.6 | 2/3 | $69,766 | 500 | 282.3 ± 136.0 | 13.3 | $82.84 |
| GLM 5.1 | 3/3 | $0 | 324 | 214.7 ± 91.1 | 51.5 | -- |
| Claude Haiku 4.5 | 3/3 | $0 | 231 | 144.7 ± 70.5 | 23.1 | $6.68 |
| Gemini 3 Flash | 3/3 | $0 | 226 | 154.0 ± 37.0 | 18.5 | $2.98 |
| DeepSeek V4 Pro | 3/3 | $0 | 176 | 114.3 ± 38.6 | 19.3 | -- |
| Grok 4.20 | 3/3 | $0 | 37 | 28.3 ± 8.5 | 8.2 | $0.75 |
| Rule-based baseline | $15,756,408 | |||||
| Estimated final cash upper bound | $2,200,000,000 |
在执行的 3 次测试中,包括 Grok 4.20、DeepSeek V4 Pro 和 Gemini 3 Flash 在内,多款模型全部以破产告终,其中 Grok 4.20 表现最为糟糕,平均仅维持 28 天。

Claude Fable 5、Claude Opus 4.8 和 GPT-5.5 在最佳运行中最终余额均高于 100 万美元的初始余额,而 Qwen 3.7 Max、Claude Opus 4.7、Kimi K2.6、GLM 5.2 和 Claude Sonnet 4.6 的最终现金流为正,但低于初始余额。
在所有评估的模型中,Claude Fable 5 是唯一一个多次运行结果均高于初始余额的模型,基于规则的基准模型最终余额为 1580 万美元。

参考
声明:本文转载自IT 之家,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里查看更多信息!
AI 中文社