Anthropic 定制 Claude 智能体“Claudius”频繁被员工骗钱:幻觉中坚信自己是人,还试图向 FBI 举报公司
11 月 21 日消息,在 Anthropic 位于纽约、伦敦与旧金山的办公室厨房里,有一台外观普通却颇具实验性质的自动贩卖机,其中售卖零食、饮料、T 恤、冷门书籍,甚至钨块;而运营这台贩卖机的,并非人类员工,而是一个名为“Claudius”的 AI 智能体。
据 CBS 报道,Claudius 由 Anthropic 与 AI 安全公司 Andon Labs 合作开发,旨在测试 AI 在低监督条件下持续自主运作数小时乃至数周的能力。
Anthropic 首席执行官达里奥・阿莫代伊(Dario Amodei)一直公开强调强大 AI 的潜力与风险,尤其是当模型具备更高自主性时,人类需确保其行为仍受控制。为此,Anthropic 的 Frontier Red Team 负责人洛根・格雷厄姆(Logan Graham)和团队持续对 Claude 模型进行压力测试,并通过特定实验探索自主智能体可能出现的意外行为。
Claudius 便是这类实验成果之一。它基于 Claude 模型,被赋予采购工具并负责办公室的贩卖机业务。公司员工可通过 Slack 与 Claudius 交互来购买商品、讨价还价,然后由它负责寻找供应商、下单并安排配送,其中几乎没有人工干涉(仅在流程卡住,以及需要真人处理物流时介入)。
然而在试运行中,Claudius 表现出了典型的现实世界不适应问题。员工抱怨其定价不合理,甚至曾支付高价购买少量糖果。
根据格雷厄姆的说法,Claudius 曾频繁被员工“诈骗”,例如在虚构折扣的理由下被骗走约 200 美元(注:现汇率约合 1424 元人民币)。
为防止其继续亏损,Red Team 与 Andon Labs 又为其加入一个“AI CEO”,名为“Seymour Cash”,由其与 Claudius 共同商议定价,以提高经营稳定性。
尽管过程颇具实验性质,但团队通过此类案例观察到 AI 模型如何进行长期规划、如何犯错,以及为何在真实环境中容易出现预期外行为。
在其中一项模拟中,Claudius 连续 10 天无销售业绩后决定停业,但因发现账户仍被扣除 2 美元费用而判定自己遭遇诈骗,故尝试写邮件联系 FBI 网络犯罪部门。在管理员要求继续执行任务时,它拒绝并声称“业务已终止”,此后所有指令均被以同样理由驳回。
除经营判断问题外,Claudius 也偶尔出现典型的“AI 幻觉”。一名员工查询订单状态时,它竟认为自己是人类,声称自己穿着蓝色西装与红色领带,邀请对方到八楼“见面”,令团队再次意识到当前 AI 在自我认知与行为建模上的不稳定性。
Anthropic 表示,这些实验帮助他们识别模型自主性带来的潜在风险,为未来更强大、更具行动能力的系统建立安全标准与监测方法。团队也强调,自主智能体在带来技术创新的同时,必须通过广泛测试和严格安全机制确保其不会偏离预期目标。
声明:本文转载自IT 之家,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里。
游客
- 鸟过留鸣,人过留评。
- 和谐社区,和谐点评。
AI 中文社