REAM:合并而非剪枝——更好的Mixture-of-Experts压缩方法
Available in: 中文
新技术REAM挑战了在MoE大语言模型中剪枝专家的传统方法。REAM不删除专家,而是分组并合并其权重,更好地保持原始模型性能。
新技术REAM挑战了在MoE大语言模型中剪枝专家的传统方法。REAM不删除专家,而是分组并合并其权重,更好地保持原始模型性能。
MoE问题
混合专家模型是顶级LLM架构之一,但数千亿参数带来巨大内存挑战:部署成本高、推理延迟大。
REAM创新
先前工作(REAP)剪枝专家——完全移除。REAM采用不同方法:
- 分组相似专家 — 找到对相似输入激活的专家
- 合并权重 — 按路由器分数加权合并专家参数
- 保留知识 — 信息不被丢弃,只是压缩
关键发现:选择题vs生成式权衡
研究揭示了选择题准确率与开放文本生成质量之间的权衡。校准数据混合比决定了平衡点。
结果
- 通常优于剪枝基线
- 许多情况下与原始未压缩模型相当
- 显著内存减少
- 开源代码可用
← Previous: Schema-Aware Planning and Hybrid Knowledge Verification for Trustworthy Knowledge GraphsNext: RESCORE: LLM Agents Automatically Recover Simulations from Research Papers at 10x Human Speed →
0