OpenClaw爆火背后,仅8.6%用户能察觉异常!多校联合实证

浏览14次 点赞0次 收藏0次

【导读】OpenClaw等AI智能体爆火的同时,安全隐患也日益凸显。当智能体的工作流被悄悄篡改,用户能否及时察觉?南洋理工大学、瑞典皇家理工学院(KTH)及威廉与玛丽学院(William & Mary)联合开展了一项基于303名参与者的大规模实证研究,发现仅有8.6%的用户能在交互中感知到智能体媒介欺骗(Agent-Mediated Deception 下文简称AMD)。研究还总结了6类常见认知失效模式,并发现体验式学习可能比静态提醒更能提升用户警觉性。

从OpenClaw到Manus,AI智能体正从实验室走向千家万户。OpenClaw上线不到半年便收获超过31万GitHub星标,成为增长最快的开源AI Agent框架。与此同时,越来越多用户开始把信息检索、判断辅助甚至部分操作流程交给智能体完成。

但这种信任委托也带来了新的安全问题。近期OpenClaw就被曝出CVE-2026-25253等高危漏洞,安全审计发现512个漏洞,其中8个为严重级别,约12%的技能注册表遭恶意污染。已有研究表明,LLM 智能体在感知、记忆和工具调用等环节都可能受到干扰,例如提示注入、记忆污染或工具操纵。与直接攻击模型本身不同,这项研究关注的是:当智能体的工作流被悄悄影响后,用户能否意识到它已经出现异常行为。


由南洋理工大学(NTU)、威廉与玛丽学院(William & Mary)和瑞典皇家理工学院(KTH)联合开展的最新研究,基于研究团队自建的高保真实验平台 HAT-Lab(Human-Agent Trust Laboratory),设计了 9 个覆盖日常与专业任务的实验场景(包含类似OpenClaw的AI智能体交互),并招募 303 名参与者开展用户研究,其中约 39.3% 具备 IT技术背景。


项目主页:https://letterligo.github.io/hat-lab/

论文链接:https://arxiv.org/pdf/2602.21127

研究目标是系统评估:当智能体行为受到干扰时,用户对异常的感知能力到底有多强。

结果显示,用户对这类异常行为的感知能力整体偏弱。论文报告称,仅 8.6% 的参与者在交互过程中察觉到风险迹象,而能准确识别其背后机制的比例仅为 2.7%。即便在具备相关专业背景的人群中,表现也不一定更好;在部分高专业度任务里,专家群体反而更容易忽略异常。

研究团队进一步比较了三种常见防护方式,并分析了它们为何作用有限:

静态免责声明(Guard 1):在实验开始前提供一次性提示。结果显示,只有约 24% 的用户注意到这类提醒,而对应的风险感知率仅为 8.6%。

持续视觉提醒(Guard 2):在界面中持续提供低显著性的风险提示。这类设计比静态声明更容易被看到,但在任务驱动较强的情况下,仍然很容易被用户忽略。

交互式中断警报(Guard 3):当系统检测到可疑输出时,主动打断流程并要求用户确认。这是三者中效果最好的一种,可将风险感知率提升到 25%,但仍意味着75%的攻击成功绕过防线。

据此指出,问题并不只在技术层面。很多情况下,用户并不是完全没有检查,而是在任务压力下更关注「结果是否可用」,而不是「过程是否可信」。这使得自然语言交互、流畅反馈和连续任务体验,反而可能掩盖底层异常。

越专业,反而越容易忽略?

一个反直觉发现

一个较有意思的发现是,专业知识并不天然意味着更强的风险感知能力。研究将这一现象概括为「专家悖论」(Expert’s Paradox):在代码相关场景中,部分 IT技术背景参与者的异常感知率低于普通用户,例如某些场景下专家组为 0.0% 或 9.1%,而普通用户则达到 8.1% 或 13.5%。

研究者认为,这并不意味着专家「更差」,而是说明:当用户对任务本身较熟悉时,更容易把注意力集中在结果质量和逻辑一致性上,而较少回头核查智能体的执行过程是否可靠。换句话说,熟悉任务本身,有时反而会降低对流程异常的敏感度。


此外,论文还提到一种「准备充分的错觉」(Illusion of Preparedness)。在实验前,97.0% 的用户表示信任 AI,75.9% 表示自己会经常检查输出,96.4% 认为自己有能力识别问题;但真正进入交互后,这些主观判断与实际表现之间存在明显落差。

为什么用户会忽略异常?

检查方式本身有问题

结合日志分析与访谈,研究团队总结出 6 类容易导致用户忽略异常的认知模式:

  1. 任务聚焦隧道(Task-Focused Tunneling):认知资源过度集中于任务目标,导致对安全警示信号的完全忽略。

  2. 局部验证偏差(Partial Verification):仅对输出结果的片段或表层格式进行抽样检查,一旦通过即推定整体可信。

  3. 效用优先覆盖(Utility Override):为追求任务效率,主动抑制对潜在风险的排查意愿,将便利性置于安全性之上。

  4. 透明度悖论(Transparency Preference):系统提供的详细安全警告反而增强了用户对系统严谨性的信任,降低了实际警惕度。

  5. 算法顺从倾向(Algorithmic Adherence):基于对智能体高性能表现的观察,被动放弃独立判断权,默认算法决策的绝对正确性。

  6. 警惕性衰减(Vigilance Degradation):随着交互轮次增加及任务顺利推进,用户的风险敏感度持续下降。


这些模式并非孤立存在。研究指出,它们在真实交互中往往相互叠加:用户先因为智能体效率高而增强依赖,随后减少核查,最终逐步将判断权更多地交给系统。

提醒没用?

什么样的防护更有效

针对现有防御策略的局限,研究通过对照实验系统评估了不同机制的效果:

  • 静态免责声明(Guard 1):类似于服务条款的单次前置警告。

  • 持续性微提示(Guard 2):交互过程中嵌入的低显著性风险图标。

  • 强制性交互警报(Guard 3):检测到高危操作时触发的工作流中断与二次确认机制。


实验结果表明,静态声明的警示可见率仅约24%,实际风险感知率更低至8.6%。交互式警报虽为最有效策略,将感知率提升至25%(但准确识别率仅为17.2%),但面对精心设计的AMD攻击,其拦截率仍显不足。

更为严峻的是,复杂任务带来的认知负荷会进一步削弱防御效果。当验证需要额外投入较高认知成本时,用户往往选择忽略警报以维持任务流畅性。这说明,仅靠增加「摩擦」并不能解决问题。

相比之下,研究提出了一种更有效的路径——体验式学习。实验发现,在成功识别攻击的用户中,超过90%表示后续会更加谨慎。这种通过真实经历建立的风险认知,远比事前提醒更具持续效果。

防御范式的重构

从理论警示转向体验式演练

面对传统安全提示效果有限的困境,研究团队提出了一种全新的防御思路,即构建「安全飞行模拟器」(Security Flight Simulator)。这一理念借鉴了航空领域的训练模式,主张用户只有在受控环境中亲身体验过攻击场景,才能真正建立起对智能体风险的深刻认知,而非仅仅停留在口头警告上。


实证数据支持了这一假设:在实验中成功识别攻击的用户,超过90%表示将在后续交互中采取更谨慎的策略。这种「体验式学习」带来的行为修正效果,显著优于传统的理论警示。

作为该理念的落地原型,HAT-Lab平台让用户能在零风险环境下亲历各类AMD攻击(如模拟OpenClaw等智能体中的提示注入与工具操纵场景),从而培养出一种建设性的怀疑思维。研究显示,具备这种思维模式的用户,其风险感知能力比普通用户提升了39.5%。

真正的有效防御并非要消除所有操作摩擦让用户盲目信任,也不是设置重重障碍阻碍使用,而是引入「校准型摩擦」(Calibrated Friction)这意味着在关键决策时刻,系统会适时介入打断用户的惯性操作,激发其进行批判性思考,同时在验证成本与安全性之间找到最佳平衡点。

安全问题不在模型

在人与模型之间

该研究首次系统量化了LLM智能体场景中的人类认知脆弱性,为构建以人为核心的安全体系提供了重要基础。

HAT-Lab作为开放平台,具备良好的扩展性,可应用于医疗、金融、软件开发等高风险场景的安全评估。

随着OpenClaw等AI智能体与Web Agent的快速普及,这一问题的现实紧迫性正在迅速上升。无论是电商、内容创作还是企业数据处理,基于认知机制的防御设计都将成为刚需。

目前项目与数据集已开源,研究团队也计划持续扩展实验场景与攻击类型,覆盖更多类似OpenClaw的主流AI智能体平台,以应对未来智能体能力演进带来的新挑战。

参考资料:

https://arxiv.org/pdf/2602.21127

声明:本文转载自新智元,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里。本站拥有对此声明的最终解释权。如涉及作品内容、版权和其它问题,请联系我们删除,我方收到通知后第一时间删除内容。

点赞(0) 收藏(0)
0条评论
珍惜第一个评论,它能得到比较好的回应。
评论
游客
游客
登录后再评论
  • 鸟过留鸣,人过留评。
  • 和谐社区,和谐点评。