MUXQ：通过低秩异常值分解解决LLM激活异常值问题

Available in: 中文

2026-04-07T19:54:14.181Z·1 min read

在NPU上量化LLM进行设备端部署是必要的，但激活异常值导致现有方法失败。MUXQ引入了低秩异常值分解方法来实现可靠的INT量化。

问题

NPU设备端环境需要INT量化——FP16/FP32效率低。但现有方法不能完全解决输入激活异常值和相关硬件低效问题。

混合到均匀量化检测异常值通道并引入小型辅助矩阵：

在GPT-2三个规模（0.1B/0.3B/0.7B参数）上测试：持续实现比现有方法更低的困惑度，保持硬件高效计算结构。

在手机、平板和边缘设备上运行LLM需要激进的量化。MUXQ重新分配而非丢弃异常值信息的方法，可以实现更高质量的设备端AI推理。

Comments0