双向熵调制:重新思考LLM推理强化学习中的探索策略
Available in: 中文
可验证奖励强化学习(RLVR)的研究揭示了根本限制:策略快速收敛到狭窄的解集。新论文提出将策略熵分解为"信息性"和"虚假性"成分,实现更有效的探索。
可验证奖励强化学习(RLVR)的研究揭示了根本限制:策略快速收敛到狭窄的解集。新论文提出将策略熵分解为"信息性"和"虚假性"成分,实现更有效的探索。
问题
RLVR显著推进了LLM推理能力,但:
- 探索受限 — 策略快速收敛到狭窄解集
- 熵正则化不可靠 — 标准熵奖励超参数敏感,增益边际
- 盲目最大化有害 — 简单增加熵会降低推理质量
关键洞察
论文将策略熵分为两类:
- 信息性熵 — 保留多样化解路径(好)
- 虚假性熵 — 侵蚀推理模式(坏)
有效探索需要最大化信息性熵同时最小化虚假性熵。
工作原理
- 群组相对优势估计 — 区分有用vs有害探索
- 熵动态分析 — 跟踪训练中熵的变化
- 双向调制 — 同时鼓励多样化解并保留推理结构
结果
在推理基准测试上相比标准熵正则化表现更好,特别是在需要多样化解题策略的问题上。
← Previous: Hallucination Basins: Geometric Framework Explains When LLMs Hallucinate Using Dynamical Systems TheoryNext: Darkness Visible: GPT-2's Final MLP Layer Decoded as a 27-Neuron Exception Handler →
0