QED-Nano:40亿参数小模型攻克奥赛级数学定理证明

Available in: 中文
2026-04-07T15:31:42.870Z·1 min read
新论文介绍QED-Nano,一个40亿参数的语言模型,能够证明奥赛级数学定理——匹敌或超越其30倍大小的模型。

新论文介绍QED-Nano,一个40亿参数的语言模型,能够证明奥赛级数学定理——匹敌或超越其30倍大小的模型。

成就

QED-Nano是一个专门后训练用于奥赛级证明的40亿参数模型。尽管体积小:

训练配方

三阶段训练流水线是关键创新:

  1. 监督微调 — 从DeepSeek-Math-V2蒸馏证明写作风格
  2. 强化学习 — 使用基于评分标准的奖励迭代改进证明质量
  3. 推理缓存RL — 将长证明分解为总结-精炼循环,实现更强的测试时推理

为什么重要

更大图景

这项工作挑战了"越大越好"的假设。精心设计的训练流水线,专注于正确的技能,可以用小模型实现卓越结果。

↗ Original source · 2026-04-07T00:00:00.000Z
← Previous: China's Anti-Exploitation Police Crack Down on Organized Coupon Abuse and Digital Fraud RingsNext: AI Trust OS: Continuous Governance Framework for Autonomous AI Observability in Enterprise Environments →
Comments0