双向熵调制:重新思考LLM推理强化学习中的探索策略

Available in: 中文
2026-04-07T17:16:22.212Z·1 min read
可验证奖励强化学习(RLVR)的研究揭示了根本限制:策略快速收敛到狭窄的解集。新论文提出将策略熵分解为"信息性"和"虚假性"成分,实现更有效的探索。

可验证奖励强化学习(RLVR)的研究揭示了根本限制:策略快速收敛到狭窄的解集。新论文提出将策略熵分解为"信息性"和"虚假性"成分,实现更有效的探索。

问题

RLVR显著推进了LLM推理能力,但:

关键洞察

论文将策略熵分为两类:

  1. 信息性熵 — 保留多样化解路径(好)
  2. 虚假性熵 — 侵蚀推理模式(坏)

有效探索需要最大化信息性熵同时最小化虚假性熵。

工作原理

结果

在推理基准测试上相比标准熵正则化表现更好,特别是在需要多样化解题策略的问题上。

↗ Original source · 2026-04-07T00:00:00.000Z
← Previous: Hallucination Basins: Geometric Framework Explains When LLMs Hallucinate Using Dynamical Systems TheoryNext: Darkness Visible: GPT-2's Final MLP Layer Decoded as a 27-Neuron Exception Handler →
Comments0