Cog-DRIFT：通过任务重构教LLM从它们还无法解决的问题中学习

Available in: 中文

2026-04-07T19:53:03.673Z·1 min read

RLVR的一个根本限制是模型无法从无法解决的问题中学习——未解决的问题不产生有意义的奖励信号。Cog-DRIFT通过将难题重构为更简单的变体来解决这一问题。

核心洞察

如果问题太难，不要跳过——转换它。方法将具有挑战性的开放式问题转化为认知上更简单的格式：

当前RLVR方法如o1式推理达到了天花板：模型只能从当前能力范围内的问题中学习。Cog-DRIFT通过创建"脚手架"方法突破了这一点。

Comments0