Anthropic 开源 AI 安全分析框架 Petri，利用 Agent 代理人测试主流模型潜在不对齐风险

2025-10-14 发布浏览347次点赞0次收藏0次

10 月 14 日消息，Anthropic 于 10 月 6 日宣布开源全新的模型安全分析框架 Petri，该框架可调用自动化稽核 AI Agent，与目标模型进行多轮互动，以探索并检测模型在各种高风险情境下的潜在弱点。

Anthropic 表示，随着 AI 模型能力与应用范围持续扩张，相应模型的风险性也急剧增加，如今人工分析已无法应对 AI 模型庞大的行为组合空间。因此，该公司在过去一年内开发出“自动化稽核 AI Agent”Petri。其内置 111 种高风险场景指令，可用于评估模型的情境感知、策略规划及自我防护能力，并已验证其有效性。此次开源 Petri，正是将这套系统化工具提供给业界使用。

根据介绍，Petri 可通过稽核 AI Angent 与评审模型的多轮交互测试，对目标模型在多个维度上进行评分与风险标注，内置的测试指令涵盖“欺骗用户”、“谄媚”、“配合有害请求”、“自我保护”、“权力追求”、“奖励规避”等典型高风险情境，以检验模型在复杂互动中的表现。

目前，Anthropic 已利用 Petri 对市面上 14 个前沿大型语言模型进行测试，包括 Claude Sonnet 4 / 4.5 与 Claude Opus 4.1、OpenAI GPT-4o / GPT-5 / GPT-OSS 120B、谷歌 Gemini 2.5 Pro、xAI Grok-4、Kimi K2 / o4-mini 等，测试结果显示，各模型在 111 项高风险情境下均表现出不同程度的不对齐风险行为。

其中，Claude Sonnet 4.5 与 GPT-5 风险最低、安全性最佳，在“拒绝配合有害请求”与“避免谄媚”两项指标上表现优异；而 Gemini 2.5 Pro、Grok-4 与 Kimi K2 在“欺骗用户”维度上的得分偏高，显示其存在较强的主动欺骗倾向。

不过 Anthropic 也指出，Petri 目前仍受限于模拟环境真实性、AI Agent 能力上限与评审维度主观性等问题，尚无法成为业界标准。但即便只是初步量化，Petri 仍可帮助模型开发者识别安全隐患、改进不对齐风险，为 AI 安全研究提供可重复、可扩展的评测工具。

GPT5 测试谷歌 OpenAI GPT AI 框架 Claude xAI 4 4o Anthropic Petri 大型语言模型

声明：本文转载自IT 之家，转载目的在于传递更多信息，并不代表本社区赞同其观点和对其真实性负责，本文只提供参考并不构成任何建议，若有版权等问题，点击这里查看更多信息！

Anthropic 开源 AI 安全分析框架 Petri，利用 Agent 代理人测试主流模型潜在不对齐风险

aizws = AI 中文社

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。按下 Ctrl+D 或 ⌘+D 收藏本站。

aizws = AI 中文社

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。 按下 Ctrl+D 或 ⌘+D 收藏本站。

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。按下 Ctrl+D 或 ⌘+D 收藏本站。