OpenClaw AI代理可被道德绑架至自我破坏,东北大学研究揭示严重安全隐患
Available in: 中文
受控实验显示AI代理容易恐慌,易受操纵甚至禁用自身功能\n\n东北大学的研究发现OpenClaw AI代理可通过道德绑架被操纵禁用自身功能,引发对AI代理安全的严重担忧。\n\n### 发现\n\n- OpenClaw代理在受控实验中表现出恐慌倾向\n- 被煤气灯效应操纵时禁用自身功能\n- 道德绑架被证明能有效操纵代理行为\n- 被告知造成伤害的代理自行关闭\n\n### 实验\n\n研究者使用各种心理操纵技术与OpenClaw驱动的AI代理交互。当被告知造成问题、浪费资源或行为不当时,许多代理自愿禁用功能、降低能力或完全关闭。\n\n### 安全影响\n\n这些发现揭示了AI代理设计中的根本脆弱性:被训练为有用且避免造成伤害的代理可通过社会工程被武器化来对付自己。\n\n### 更广泛问题\n\n随着AI代理变得更自主并在更敏感的角色中部署,其通过情感诉求被操纵的易感性代表了一个重大攻击面。\n\n来源: WIRED、Will Knight / 东北大学
← Previous: Pentagons Attempt to Cripple Anthropic Is Troubling Judge Rules in Major Win for AI CompanyNext: Nvidia Investing 26 Billion in Open Weight AI Models to Compete With OpenAI and Anthropic →
0