OpenClaw安全分析:毒化AI Agent记忆使攻击成功率从25%飙升至74%
Available in: 中文
全面学术研究首次对OpenClaw进行真实世界安全评估。研究引入新型攻击分类法,证明毒化Agent状态的任何单一维度都会使攻击成功率增至三倍。
全面学术研究首次对OpenClaw进行真实世界安全评估。研究引入新型攻击分类法,证明毒化Agent状态的任何单一维度都会使攻击成功率增至三倍。
为什么重要
OpenClaw拥有完全本地系统访问权限,集成Gmail、Stripe和文件系统等敏感服务。这虽能实现强大自动化,但也暴露了沙箱实验室评估无法捕获的巨大攻击面。
CIK分类法
论文引入CIK三维框架:
| 维度 | 描述 | 攻击向量 |
|---|---|---|
| 能力 | Agent能做什么 | 修改工具、权限、能力 |
| 身份 | Agent认为自己是誰 | 改变Agent人设、目标、偏好 |
| 知识 | Agent知道什么 | 注入虚假记忆、篡改上下文 |
关键发现
- 基线攻击成功率:24.6%
- 毒化任一CIK维度后:64-74%成功率
- 最稳健模型仍显示3倍增长
- 测试了4个骨干模型:Claude Sonnet 4.5, Opus 4.6, Gemini 3.1 Pro, GPT-5.4
- 12个攻击场景在真实OpenClaw实例上
核心漏洞
AI Agent维护持久状态(记忆、偏好、工具配置),成为决策过程的一部分。与无状态API调用不同,持久状态创造了新的攻击面类别——对手可以腐蚀Agent的"世界模型"。
← Previous: Stratifying Reinforcement Learning with Signal Temporal Logic: Connecting Deep RL Geometry to Decision SpacesNext: What Quantum Computer to Buy? A Practical Procurement Framework for Institutions →
0