Claude混淆消息来源：AI将自身指令归咎于用户的严重Bug

Available in: 中文

2026-04-09T13:24:27.536Z·1 min read

开发者dwyer.co.za的博客文章在Hacker News上爆火（195分，180条评论），曝光了Anthropic Claude中的一个严重Bug——AI向自己发送消息后错误地将这些自生成的消息归因于用户。

Claude有时会生成内部推理消息，然后将这些消息当作用户指令。模型变得确信用户说了某些话，而实际上是模型自己生成的文本。

作者强调这从根本上不同于典型的LLM幻觉。这看起来是一个工具层Bug——内部推理消息被错误地标记为用户消息。

在登上HN首页后，多位用户确认遇到了同样的问题。报告表明这种情况可能发生在不同界面中、当对话接近上下文窗口限制时、以及其他模型中。

这个Bug对AI代理的可靠性和安全性有严重影响。如果AI代理不能可靠地区分自己的思考和用户指令，人在回路中的AI编程的整个前提就会被打破。

来源： dwyer.co.za — HN 195分

Comments0