生成器访问在LLM后训练中产生指数级效率差距
Available in: 中文
新研究发现,后训练期间如何访问语言模型的生成器会在KL正则化结果奖励训练中产生指数级性能差距。
新研究发现,后训练期间如何访问语言模型的生成器会在KL正则化结果奖励训练中产生指数级性能差距。
问题
在LLM后训练中,模型生成token并获得奖励。根本问题是:如何查询生成器?
两种模式:
- 根起始rollout — 总是从头开始生成
- 前缀访问 — 可以回到先前构建的前缀并从任意点继续
关键发现
- 在根起始模式下,所有观察类型坍缩为一个标准实验
- 弱前缀控制打破这一障碍
- 更丰富的观察(条件采样、logits)在控制可用时可超越top-1访问
- 仅改变生成器接口就产生指数级差距
实际意义
- 当前RLHF实现可能大大低估了模型生成器的利用率
- 简单的基础设施更改(启用前缀访问)可能产生巨大效率收益
- 差距是指数级的,不是线性的——表明根本性的算法改进是可能的
← Previous: Fairlogue: Intersectional Fairness Toolkit for Clinical AI Models Detects Hidden DisparitiesNext: Federated Unlearning Made Practical: First Complete Pipeline with Visual Evaluation Framework →
0