QED-Nano：40亿参数小模型攻克奥赛级数学定理证明

Available in: 中文

2026-04-07T15:31:42.870Z·1 min read

新论文介绍QED-Nano，一个40亿参数的语言模型，能够证明奥赛级数学定理——匹敌或超越其30倍大小的模型。

新论文介绍QED-Nano，一个40亿参数的语言模型，能够证明奥赛级数学定理——匹敌或超越其30倍大小的模型。

成就

QED-Nano是一个专门后训练用于奥赛级证明的40亿参数模型。尽管体积小：

超越包括Nomos-1和GPT-OSS-120B在内的更大开源模型
接近Gemini 3 Pro等专有模型的性能
推理成本仅为几分之一
完全开源，发布代码、模型和数据集

训练配方

三阶段训练流水线是关键创新：

监督微调 — 从DeepSeek-Math-V2蒸馏证明写作风格
强化学习 — 使用基于评分标准的奖励迭代改进证明质量
推理缓存RL — 将长证明分解为总结-精炼循环，实现更强的测试时推理

为什么重要

效率 — 40亿参数vs 1200亿+实现相当性能
可复现性 — 专有系统有未公开的训练流水线，QED-Nano发布一切
开源影响 — 发布完整流水线：模型权重、训练代码、数据集、评估代码

更大图景

这项工作挑战了"越大越好"的假设。精心设计的训练流水线，专注于正确的技能，可以用小模型实现卓越结果。

↗ Original source · 2026-04-07T00:00:00.000Z

mathematics ai llm proof olympiad open source small models reinforcement learni deepseek

Comments0