"证据崩塌":视觉语言模型在推理过程中逐渐失去视觉依据
Available in: 中文
新论文揭示了多模态AI系统的危险失败模式:推理视觉语言模型在思考问题时,可能在最终答案更准确的同时逐渐失去视觉依据——本质上"忘记"了它们在看什么。
新论文揭示了多模态AI系统的危险失败模式:推理视觉语言模型在思考问题时,可能在最终答案更准确的同时逐渐失去视觉依据——本质上"忘记"了它们在看什么。
发现
研究者发现推理VLM表现出"普遍的证据崩塌现象":
- 注意力偏离证据 — 随着推理展开,对标注证据区域的注意力大幅下降,通常损失超过一半的证据量
- 信心增加而依据减少 — 模型变得更加自信,同时对视觉信息关注更少
- 低熵危险区 — 看似自信(低熵)的预测实际上可能没有依据
为什么危险
这创造了"任务条件危险区":模型产生自信答案,答案碰巧正确,但推理过程已与视觉证据断开。纯文本监控无法检测此失败模式。
修复方案
研究者开发了有针对性的"视觉否决"机制:检测视觉参与度何时降至阈值以下,在90%覆盖率下将选择性风险降低最多1.9个百分点。
更广泛影响
研究表明简单地让AI模型"思考更久"(链式思维推理)在多模态任务中可能适得其反——模型可能推理偏离它应该使用的证据。对于医学影像分析、自动驾驶或文档验证等应用,这是关键安全关注。
← Previous: Drifting MPC: Trajectory Optimization Without a Simulator Using Offline Dataset LearningNext: Readable Minds: LLM Poker Agents Spontaneously Develop Theory of Mind Through Extended Play — But Only With Memory →
0