AI 中文社/资讯/详情

Anthropic 定制 Claude 智能体“Claudius”频繁被员工骗钱：幻觉中坚信自己是人，还试图向 FBI 举报公司

2025-11-21 发布 · 浏览10次 · 点赞0次 · 收藏0次

感谢网友 Domado 的线索投递！

11 月 21 日消息，在 Anthropic 位于纽约、伦敦与旧金山的办公室厨房里，有一台外观普通却颇具实验性质的自动贩卖机，其中售卖零食、饮料、T 恤、冷门书籍，甚至钨块；而运营这台贩卖机的，并非人类员工，而是一个名为“Claudius”的 AI 智能体。

据 CBS 报道，Claudius 由 Anthropic 与 AI 安全公司 Andon Labs 合作开发，旨在测试 AI 在低监督条件下持续自主运作数小时乃至数周的能力。

Anthropic 首席执行官达里奥・阿莫代伊（Dario Amodei）一直公开强调强大 AI 的潜力与风险，尤其是当模型具备更高自主性时，人类需确保其行为仍受控制。为此，Anthropic 的 Frontier Red Team 负责人洛根・格雷厄姆（Logan Graham）和团队持续对 Claude 模型进行压力测试，并通过特定实验探索自主智能体可能出现的意外行为。

Claudius 便是这类实验成果之一。它基于 Claude 模型，被赋予采购工具并负责办公室的贩卖机业务。公司员工可通过 Slack 与 Claudius 交互来购买商品、讨价还价，然后由它负责寻找供应商、下单并安排配送，其中几乎没有人工干涉（仅在流程卡住，以及需要真人处理物流时介入）。

然而在试运行中，Claudius 表现出了典型的现实世界不适应问题。员工抱怨其定价不合理，甚至曾支付高价购买少量糖果。

根据格雷厄姆的说法，Claudius 曾频繁被员工“诈骗”，例如在虚构折扣的理由下被骗走约 200 美元（注：现汇率约合 1424 元人民币）。

为防止其继续亏损，Red Team 与 Andon Labs 又为其加入一个“AI CEO”，名为“Seymour Cash”，由其与 Claudius 共同商议定价，以提高经营稳定性。

尽管过程颇具实验性质，但团队通过此类案例观察到 AI 模型如何进行长期规划、如何犯错，以及为何在真实环境中容易出现预期外行为。

在其中一项模拟中，Claudius 连续 10 天无销售业绩后决定停业，但因发现账户仍被扣除 2 美元费用而判定自己遭遇诈骗，故尝试写邮件联系 FBI 网络犯罪部门。在管理员要求继续执行任务时，它拒绝并声称“业务已终止”，此后所有指令均被以同样理由驳回。

除经营判断问题外，Claudius 也偶尔出现典型的“AI 幻觉”。一名员工查询订单状态时，它竟认为自己是人类，声称自己穿着蓝色西装与红色领带，邀请对方到八楼“见面”，令团队再次意识到当前 AI 在自我认知与行为建模上的不稳定性。

Anthropic 表示，这些实验帮助他们识别模型自主性带来的潜在风险，为未来更强大、更具行动能力的系统建立安全标准与监测方法。团队也强调，自主智能体在带来技术创新的同时，必须通过广泛测试和严格安全机制确保其不会偏离预期目标。

Claude 测试 AI CEO mod 4 Anthropic Claudius AI 智能体

声明：本文转载自IT 之家，转载目的在于传递更多信息，并不代表本社区赞同其观点和对其真实性负责，本文只提供参考并不构成任何建议，若有版权等问题，点击这里。

浏览(10) 点赞(0) 收藏(0)

0条评论

珍惜第一个评论，它能得到比较好的回应。

游客

登录后再评论

鸟过留鸣，人过留评。
和谐社区，和谐点评。

Anthropic 定制 Claude 智能体“Claudius”频繁被员工骗钱：幻觉中坚信自己是人，还试图向 FBI 举报公司

aizws = AI 中文社

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。按下 Ctrl+D 或 ⌘+D 收藏本站。

Anthropic 定制 Claude 智能体“Claudius”频繁被员工骗钱：幻觉中坚信自己是人，还试图向 FBI 举报公司

aizws = AI 中文社

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。 按下 Ctrl+D 或 ⌘+D 收藏本站。

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。按下 Ctrl+D 或 ⌘+D 收藏本站。