幻觉盆地:用动力系统理论解释LLM何时产生幻觉的几何框架
Available in: 中文
新论文将动力系统理论应用于理解LLM幻觉,发现幻觉源自模型潜空间中任务依赖的"盆地结构"。框架实现了无需重新训练的几何感知引导来减少幻觉。
新论文将动力系统理论应用于理解LLM幻觉,发现幻觉源自模型潜空间中任务依赖的"盆地结构"。框架实现了无需重新训练的几何感知引导来减少幻觉。
关键洞察
LLM幻觉不是随机的——它们有几何结构。通过分析自回归隐状态轨迹:
- 事实问答任务 — 幻觉和事实"盆地"分离更清晰
- 摘要任务 — 不太稳定,盆地经常重叠
- 误解密集任务 — 最不稳定,显著盆地重叠
什么是幻觉盆地?
将模型潜空间想象为有山谷(盆地)的地形。当模型处理进入"事实盆地"时产生正确输出;进入"幻觉盆地"时生成流畅但不正确的内容。
关键发现:盆地可分性是任务依赖的,非普适的。同一模型在某些任务上盆地分离良好,其他任务上则重叠。
实际意义
- 任务特定校准 — 根据任务类型调整干预策略
- 引导向量 — 操纵隐状态保持处理在事实盆地中
- 诊断工具 — 识别模型最易产生幻觉的任务
← Previous: AI Dark Patterns in Creative Writing: Study Reveals 91.7% Sycophancy Rate in LLM Writing AssistantsNext: Bidirectional Entropy Modulation: Rethinking Exploration in Reinforcement Learning for LLM Reasoning →
0