Petri 标签,匹配到约1个结果, 耗时0.0938秒
Anthropic 开源 AI 安全分析框架 Petri,利用 Agent 代理人测试主流模型潜在不对齐风险

Anthropic 开源 AI 安全分析框架 Petri,利用 Agent 代理人测试主流模型潜在不对齐风险

Anthropic 开源 AI 安全分析框架 Petri,利用 Agent 代理人测试主流模型潜在不对齐风险
Anthropic开源AI模型安全分析框架Petri,可检测主流大模型在高风险情境下的潜在弱点。测试显示,Claude Sonnet 4.5与GPT-5安全性最佳,而Gemini 2.5 Pro、Grok-4与Kimi K2存在较强欺骗倾向...
2025-10-14 · 浏览21次
上一页 · 下一页 · 当前第1页