Cog-DRIFT:通过任务重构教LLM从它们还无法解决的问题中学习
Available in: 中文
RLVR的一个根本限制是模型无法从无法解决的问题中学习——未解决的问题不产生有意义的奖励信号。Cog-DRIFT通过将难题重构为更简单的变体来解决这一问题。
RLVR的一个根本限制是模型无法从无法解决的问题中学习——未解决的问题不产生有意义的奖励信号。Cog-DRIFT通过将难题重构为更简单的变体来解决这一问题。
核心洞察
如果问题太难,不要跳过——转换它。方法将具有挑战性的开放式问题转化为认知上更简单的格式:
| 原始格式 | 重构格式 | 好处 |
|---|---|---|
| 开放生成 | 多选题 | 更小搜索空间 |
| 自由推理 | 填空 | 更密学习信号 |
| 复杂生成 | 判别任务 | 二元反馈 |
Cog-DRIFT工作原理
- 重构 — 将难题转化为保留原始答案的更简单变体
- 按难度组织 — 创建从易到难的自适应课程
- 引导学习 — 先在结构化、更容易的格式上训练
- 转移回去 — 知识转移回原始开放式问题
为什么重要
当前RLVR方法如o1式推理达到了天花板:模型只能从当前能力范围内的问题中学习。Cog-DRIFT通过创建"脚手架"方法突破了这一点。
← Previous: CIA's 'Ghost Murmur': Quantum Magnetometry Technology Used in covert Iran OperationsNext: TabPFN Shows Remarkable Robustness to Noisy, Messy Real-World Tabular Data →
0