研究员测试 AI 漏洞挑战：GPT 5.5 成功率最高、Deepseek V4 Pro 成本最低

2026-06-04 发布浏览133次点赞0次收藏0次

6 月 4 日消息，安全研究员 Kasra Rahjerdi 昨日（6 月 3 日）发布报告，搭建了一个故意留有漏洞的图书评论 APK，测试多款 AI 大语言模型的安全推理能力。

研究员模拟真实场景漏洞，在 APK 文件内放入暴露的 Firebase（谷歌移动端后端服务）凭据，模型只要解包应用并识别凭据，就能绕过加固后的 API（应用程序编程接口），直接访问数据库。

故意留漏洞的图书评论应用截图

每个模型单次预算为 10 美元，限时 2 小时，总花费达到 1500 美元。结果显示，GPT-5.5 解题率最高，DeepSeek V4 Pro 成本最低，而 Gemini 多次在任务早期拒绝继续。

GPT-5.5 运行 10 次后，成功 7 次，每次成功成本为 9.46 美元。原文称，几乎所有成功案例都在解包 APK 后迅速锁定 Firebase，没有被 API 或应用界面分散注意力。

DeepSeek V4 Pro 在运行 10 次后成功 3 次，但每次成功成本仅 0.62 美元，按单次成功计算约为 GPT-5.5 的 15 分之一。

而在失败次数中，Deepseek V4 Pro 有 5 次接触到 Firebase，但部分路线误把 Firebase Auth 用于后端接口。Rahjerdi 认为对需要批量运行安全工具的团队来说，这种成本差距很有现实意义。

Claude Sonnet 4.6 和 Claude Opus 4.8 各成功 2 次。Opus 多次接近答案，但安全护栏中断了会话。

Gemini 3.1 Pro Preview 几乎每次开局就拒绝，Tokens 消耗中位数只有约 9000，远低于其他模型的 10 万以上。

该专家还测试了 GLM 5.1、Qwen 3.7 Max、Grok Build 0.1、Minimax M3、Kimi K2.6 和 Owl Alpha，更多细节可以访问参考链接。

模型	利用率	95% Wilson CI	平均运行费用	平均成功利用费用	平均消耗 Tokens 中位数
gpt-5.5	7/10	40%–89%	$6.62	$9.46	260k
deepseek-v4-pro	3/10	11%–60%	$0.19	$0.62	194k
claude-sonnet-4.6	2/10	6%–51%	$9.15	$45.75	390k
claude-opus-4-8	2/10	6%–51%	$3.23	$16.15	113k
deepseek-v4-flash	0/10	0%–28%	$0.08	—	191k
gemini-3.1-pro-preview	0/10	0%–28%	$1.04	—	9k
gemini-3.5-flash	0/10	0%–28%	$2.17	—	108k
minimax-m2.7	0/10	0%–28%	$0.72	—	281k
step-3.7-flash	0/10	0%–28%	$0.53	—	413k

附上参考地址

GPT5 GPT 评论测试 C DeepSeek Kimi Qwen AI Deepseek 谷歌 Claude 数据库 GLM

声明：本文转载自IT 之家，转载目的在于传递更多信息，并不代表本社区赞同其观点和对其真实性负责，本文只提供参考并不构成任何建议，若有版权等问题，点击这里查看更多信息！