Cog-DRIFT:通过任务重构教LLM从它们还无法解决的问题中学习

Available in: 中文
2026-04-07T19:53:03.673Z·1 min read
RLVR的一个根本限制是模型无法从无法解决的问题中学习——未解决的问题不产生有意义的奖励信号。Cog-DRIFT通过将难题重构为更简单的变体来解决这一问题。

RLVR的一个根本限制是模型无法从无法解决的问题中学习——未解决的问题不产生有意义的奖励信号。Cog-DRIFT通过将难题重构为更简单的变体来解决这一问题。

核心洞察

如果问题太难,不要跳过——转换它。方法将具有挑战性的开放式问题转化为认知上更简单的格式:

原始格式重构格式好处
开放生成多选题更小搜索空间
自由推理填空更密学习信号
复杂生成判别任务二元反馈

Cog-DRIFT工作原理

  1. 重构 — 将难题转化为保留原始答案的更简单变体
  2. 按难度组织 — 创建从易到难的自适应课程
  3. 引导学习 — 先在结构化、更容易的格式上训练
  4. 转移回去 — 知识转移回原始开放式问题

为什么重要

当前RLVR方法如o1式推理达到了天花板:模型只能从当前能力范围内的问题中学习。Cog-DRIFT通过创建"脚手架"方法突破了这一点。

↗ Original source · 2026-04-07T00:00:00.000Z
← Previous: CIA's 'Ghost Murmur': Quantum Magnetometry Technology Used in covert Iran OperationsNext: TabPFN Shows Remarkable Robustness to Noisy, Messy Real-World Tabular Data →
Comments0