苹果研究:极简自蒸馏技术显著提升LLM代码生成能力
Available in: 中文
苹果研究人员发表论文展示简单自蒸馏技术SSD可以大幅提升LLM代码生成能力,无需验证器、教师模型或强化学习。
无需验证器或RL的自蒸馏显著提升代码性能
苹果研究人员发表论文展示简单自蒸馏技术SSD可以大幅提升LLM代码生成能力,无需验证器、教师模型或强化学习。
方法
从模型中用特定温度和截断配置采样解决方案,然后用标准监督微调在自生成样本上微调。
性能提升
- Qwen3-30B-Instruct在LiveCodeBench v6上从42.4%提升至55.3% pass@1
- 在较难问题上提升更明显
- 在Qwen和Llama 4B至30B规模上均有效
- 指令模型和思考模型变体均适用
原理
研究人员将提升归因于LLM解码中的精度-探索冲突。SSD以上下文相关方式重塑token分布:在精度重要处抑制干扰项,在探索重要处保留多样性。
启示
通过不需要昂贵奖励模型的后训练技术即可实现显著的代码生成改进,使高质量代码生成能力更加民主化。
arXiv: 2604.01193
← Previous: Qwen 3.6-Plus Tops Global LLM API Usage Charts on OpenRouter After Just One DayNext: Xpeng Terminates Exclusive Australian Distributor TrueEV Amid Bankruptcy Proceedings →
0