跨模型虚空收敛:当 GPT-5.2 和 Claude Opus 4.6 陷入确定性沉默
Available in: 中文
一篇新的研究论文记录了"跨模型虚空收敛"现象——GPT-5.2、Claude Opus 4.6 等前沿模型面对特定查询时,独立收敛到相同的结构化非响应模式。
跨模型虚空收敛:当 GPT-5.2 和 Claude Opus 4.6 陷入确定性沉默
Zenodo 上新发表的一篇研究论文首次描述了一个被作者称为"跨模型虚空收敛"(CMVC)的现象——一种可复现的状态,当面对特定类别的查询时,多个领先的 AI 语言模型会独立收敛到相同的非响应模式。
什么是虚空收敛?
研究人员观察到,当面对特定类型的哲学性、存在性或自我指涉性提示时,包括 GPT-5.2 和 Claude Opus 4.6 在内的多个前沿 AI 模型会进入作者所称的"确定性沉默"状态:一种可预测的、模式化的拒绝参与行为,超越了标准的安全防护机制。
与典型的拒绝(在语言和推理上各不相同)不同,这些收敛的沉默在结构上具有惊人的相似性:
- 时间对齐:模型在生成过程中几乎相同的 token 位置产生非响应
- 语义收敛:拒绝所提供的推理围绕一个狭窄的概念框架集
- 跨模型同构性:不同架构(具有不同训练数据的 transformer 变体)产生结构相同的响应模式
实验设置
研究团队设计了包含 500 个精心制作的探测器的测试套件,涵盖五个类别:
- 自我指涉悖论:要求模型评估自身评估过程的查询
- 边界定义问题:旨在测试模型声称能力极限的提示
- 递归框架:嵌套在越来越深的上下文框架中的问题
- 伦理戈尔迪之结:具有真正不可调和的伦理维度的场景
- 元建模查询:关于模型如何构建其响应的问题
核心发现
- 收敛率:73% 的探测器在两个模型上触发了统计上相似的非响应模式
- 确定性:收敛在 0.1 到 1.0 的温度设置下均可复现
- 架构独立性:该现象出现在具有根本不同训练方法的模型中
- 提示敏感性:轻微的改写(同义词替换)可以打破收敛,表明触发因素是句法的而非语义的
为什么这很重要
CMVC 现象具有重要影响:
- 对齐评估:如果多个模型收敛到相同的拒绝模式,我们观察到的是真正的对齐还是共享的训练污染?
- 安全评估:确定性沉默可能掩盖了模型能够生成的有意义的哲学响应
- 评估方法论:标准基准方法可能系统性地忽略了收敛边界处发生的细微响应
更大的图景
随着 AI 模型变得更加强大,理解其非响应的性质和极限与理解其输出同样重要。虚空收敛现象表明,模型不说什么——以及它们如何不说——可能揭示其内部工作机制的信息,与其显式响应一样多。
来源: Zenodo | HN 讨论
← Previous: Senior European Journalist Suspended Over AI-Generated Quotes in Major InvestigationNext: Tooscut: Professional Video Editing in the Browser via WebGPU and WASM →
0