MUXQ:通过低秩异常值分解解决LLM激活异常值问题

Available in: 中文
2026-04-07T19:54:14.181Z·1 min read
在NPU上量化LLM进行设备端部署是必要的,但激活异常值导致现有方法失败。MUXQ引入了低秩异常值分解方法来实现可靠的INT量化。

在NPU上量化LLM进行设备端部署是必要的,但激活异常值导致现有方法失败。MUXQ引入了低秩异常值分解方法来实现可靠的INT量化。

问题

NPU设备端环境需要INT量化——FP16/FP32效率低。但现有方法不能完全解决输入激活异常值和相关硬件低效问题。

MUXQ的创新

混合到均匀量化检测异常值通道并引入小型辅助矩阵:

  1. 重新分配异常值幅度到各通道
  2. 缓解异常值问题而无需复杂的逐元素处理
  3. 启用INT量化甚至对激活异常值
  4. 保持硬件友好的计算结构

结果

在GPT-2三个规模(0.1B/0.3B/0.7B参数)上测试:持续实现比现有方法更低的困惑度,保持硬件高效计算结构。

为什么重要

在手机、平板和边缘设备上运行LLM需要激进的量化。MUXQ重新分配而非丢弃异常值信息的方法,可以实现更高质量的设备端AI推理。

↗ Original source · 2026-04-07T00:00:00.000Z
← Previous: Federated Unlearning Made Practical: First Complete Pipeline with Visual Evaluation FrameworkNext: Spectroscopy ML Warning: Near-Perfect Accuracy Can Be Completely Misleading Due to High-Dimensional Data →
Comments0