REAM:合并而非剪枝——更好的Mixture-of-Experts压缩方法

Available in: 中文
2026-04-07T16:07:53.324Z·1 min read
新技术REAM挑战了在MoE大语言模型中剪枝专家的传统方法。REAM不删除专家,而是分组并合并其权重,更好地保持原始模型性能。

新技术REAM挑战了在MoE大语言模型中剪枝专家的传统方法。REAM不删除专家,而是分组并合并其权重,更好地保持原始模型性能。

MoE问题

混合专家模型是顶级LLM架构之一,但数千亿参数带来巨大内存挑战:部署成本高、推理延迟大。

REAM创新

先前工作(REAP)剪枝专家——完全移除。REAM采用不同方法:

  1. 分组相似专家 — 找到对相似输入激活的专家
  2. 合并权重 — 按路由器分数加权合并专家参数
  3. 保留知识 — 信息不被丢弃,只是压缩

关键发现:选择题vs生成式权衡

研究揭示了选择题准确率与开放文本生成质量之间的权衡。校准数据混合比决定了平衡点。

结果

↗ Original source · 2026-04-07T00:00:00.000Z
← Previous: Schema-Aware Planning and Hybrid Knowledge Verification for Trustworthy Knowledge GraphsNext: RESCORE: LLM Agents Automatically Recover Simulations from Research Papers at 10x Human Speed →
Comments0