QED-Nano:40亿参数小模型攻克奥赛级数学定理证明
Available in: 中文
新论文介绍QED-Nano,一个40亿参数的语言模型,能够证明奥赛级数学定理——匹敌或超越其30倍大小的模型。
新论文介绍QED-Nano,一个40亿参数的语言模型,能够证明奥赛级数学定理——匹敌或超越其30倍大小的模型。
成就
QED-Nano是一个专门后训练用于奥赛级证明的40亿参数模型。尽管体积小:
- 超越包括Nomos-1和GPT-OSS-120B在内的更大开源模型
- 接近Gemini 3 Pro等专有模型的性能
- 推理成本仅为几分之一
- 完全开源,发布代码、模型和数据集
训练配方
三阶段训练流水线是关键创新:
- 监督微调 — 从DeepSeek-Math-V2蒸馏证明写作风格
- 强化学习 — 使用基于评分标准的奖励迭代改进证明质量
- 推理缓存RL — 将长证明分解为总结-精炼循环,实现更强的测试时推理
为什么重要
- 效率 — 40亿参数vs 1200亿+实现相当性能
- 可复现性 — 专有系统有未公开的训练流水线,QED-Nano发布一切
- 开源影响 — 发布完整流水线:模型权重、训练代码、数据集、评估代码
更大图景
这项工作挑战了"越大越好"的假设。精心设计的训练流水线,专注于正确的技能,可以用小模型实现卓越结果。
← Previous: China's Anti-Exploitation Police Crack Down on Organized Coupon Abuse and Digital Fraud RingsNext: AI Trust OS: Continuous Governance Framework for Autonomous AI Observability in Enterprise Environments →
0