双向熵调制：重新思考LLM推理强化学习中的探索策略

Available in: 中文

2026-04-07T17:16:22.212Z·1 min read

可验证奖励强化学习（RLVR）的研究揭示了根本限制：策略快速收敛到狭窄的解集。新论文提出将策略熵分解为"信息性"和"虚假性"成分，实现更有效的探索。

可验证奖励强化学习（RLVR）的研究揭示了根本限制：策略快速收敛到狭窄的解集。新论文提出将策略熵分解为"信息性"和"虚假性"成分，实现更有效的探索。

问题

RLVR显著推进了LLM推理能力，但：

探索受限 — 策略快速收敛到狭窄解集
熵正则化不可靠 — 标准熵奖励超参数敏感，增益边际
盲目最大化有害 — 简单增加熵会降低推理质量

关键洞察

论文将策略熵分为两类：

信息性熵 — 保留多样化解路径（好）
虚假性熵 — 侵蚀推理模式（坏）

有效探索需要最大化信息性熵同时最小化虚假性熵。

工作原理

群组相对优势估计 — 区分有用vs有害探索
熵动态分析 — 跟踪训练中熵的变化
双向调制 — 同时鼓励多样化解并保留推理结构

结果

在推理基准测试上相比标准熵正则化表现更好，特别是在需要多样化解题策略的问题上。

↗ Original source · 2026-04-07T00:00:00.000Z

reinforcement learni llm reasoning rlvr entropy exploration ai training o1

Comments0