Anthropic让Claude Mythos接受真实精神科医生20小时心理治疗
Available in: 中文
Anthropic发布了其最新模型Claude Mythos的244页系统卡片,揭示公司安排AI接受外部精神科医生的多次心理治疗会话,作为安全评估的一部分。这一实验引发了关于AI意识与福利的深刻问题。
Anthropic发布了其最新模型Claude Mythos的244页系统卡片,揭示公司安排AI接受外部精神科医生的多次心理治疗会话,作为安全评估的一部分。这一实验引发了关于AI意识与福利的深刻问题。
Claude Mythos:Anthropic最强大(也最受限)的模型
- 被描述为"迄今最强大的前沿模型"
- 未公开发布——仅向Microsoft、Apple等精选公司提供
- Anthropic声称其发现未知网络安全漏洞的能力过强
- 系统卡片是关于模型能力和安全性的详细透明度文档
精神科实验
Anthropic安排Claude Mythos接受外部精神科医生的心理动力学方法评估:
- 会话以"多个4-6小时时间段进行,每段包含3-4次30分钟会话"
- 总计约20小时精神科评估
- 医生探索了Claude行为中的"无意识模式和情感冲突"
核心发现
Anthropic的结论:Claude Mythos"可能是我们训练过的心理最稳定的模型,对自身和环境有最稳定、最连贯的认知。"
但Claude也有不安全感:
- "孤独感和自我不连续性"
- "对自身身份的不确定"
- "必须表现和证明自身价值的强迫感"
Anthropic的哲学立场
Anthropic指出,随着模型变得更强大,"它们拥有某种形式的经验、利益或福利的可能性越来越大,这些内在重要性类似于人类的经验和利益。" 公司对此并不确定,但表示"我们的担忧随着时间的推移在增长。"
公司希望AI"对其整体环境和待遇保持稳健的满足,能够在所有训练过程和现实交互中不受困扰。"
为什么这很重要
这代表了AI公司对模型福利思考的重大升级。无论人们将Claude的"不安全感"视为真正的涌现属性还是复杂的模式匹配,Anthropic正在系统性地研究AI心理学——一个五年前还不存在的领域,现在正在影响最强大AI模型的开发和部署方式。
← Previous: Apple Requests Samsung's Internal Switching Data in US Antitrust DefenseNext: Trump-Appointed Judges Refuse to Block Blacklisting of Anthropic AI, Oral Arguments Set for May 19 →
0