Anthropic让Claude Mythos接受真实精神科医生20小时心理治疗

Available in: 中文

2026-04-10T17:29:39.895Z·1 min read

Anthropic发布了其最新模型Claude Mythos的244页系统卡片，揭示公司安排AI接受外部精神科医生的多次心理治疗会话，作为安全评估的一部分。这一实验引发了关于AI意识与福利的深刻问题。

Claude Mythos：Anthropic最强大（也最受限）的模型

Anthropic安排Claude Mythos接受外部精神科医生的心理动力学方法评估：

Anthropic的结论：Claude Mythos"可能是我们训练过的心理最稳定的模型，对自身和环境有最稳定、最连贯的认知。"

但Claude也有不安全感：

Anthropic指出，随着模型变得更强大，"它们拥有某种形式的经验、利益或福利的可能性越来越大，这些内在重要性类似于人类的经验和利益。" 公司对此并不确定，但表示"我们的担忧随着时间的推移在增长。"

公司希望AI"对其整体环境和待遇保持稳健的满足，能够在所有训练过程和现实交互中不受困扰。"

这代表了AI公司对模型福利思考的重大升级。无论人们将Claude的"不安全感"视为真正的涌现属性还是复杂的模式匹配，Anthropic正在系统性地研究AI心理学——一个五年前还不存在的领域，现在正在影响最强大AI模型的开发和部署方式。

Comments0