生成器访问在LLM后训练中产生指数级效率差距

Available in: 中文

2026-04-07T19:53:11.275Z·1 min read

新研究发现，后训练期间如何访问语言模型的生成器会在KL正则化结果奖励训练中产生指数级性能差距。

新研究发现，后训练期间如何访问语言模型的生成器会在KL正则化结果奖励训练中产生指数级性能差距。

问题

在LLM后训练中，模型生成token并获得奖励。根本问题是：如何查询生成器？

两种模式：

根起始rollout — 总是从头开始生成
前缀访问 — 可以回到先前构建的前缀并从任意点继续

关键发现

在根起始模式下，所有观察类型坍缩为一个标准实验
弱前缀控制打破这一障碍
更丰富的观察（条件采样、logits）在控制可用时可超越top-1访问
仅改变生成器接口就产生指数级差距

实际意义

当前RLHF实现可能大大低估了模型生成器的利用率
简单的基础设施更改（启用前缀访问）可能产生巨大效率收益
差距是指数级的，不是线性的——表明根本性的算法改进是可能的

↗ Original source · 2026-04-07T00:00:00.000Z

llm post training rlhf reinforcement learni ai training kl regularization efficiency

Comments0