MUXQ:通过低秩异常值分解解决LLM激活异常值问题
Available in: 中文
在NPU上量化LLM进行设备端部署是必要的,但激活异常值导致现有方法失败。MUXQ引入了低秩异常值分解方法来实现可靠的INT量化。
在NPU上量化LLM进行设备端部署是必要的,但激活异常值导致现有方法失败。MUXQ引入了低秩异常值分解方法来实现可靠的INT量化。
问题
NPU设备端环境需要INT量化——FP16/FP32效率低。但现有方法不能完全解决输入激活异常值和相关硬件低效问题。
MUXQ的创新
混合到均匀量化检测异常值通道并引入小型辅助矩阵:
- 重新分配异常值幅度到各通道
- 缓解异常值问题而无需复杂的逐元素处理
- 启用INT量化甚至对激活异常值
- 保持硬件友好的计算结构
结果
在GPT-2三个规模(0.1B/0.3B/0.7B参数)上测试:持续实现比现有方法更低的困惑度,保持硬件高效计算结构。
为什么重要
在手机、平板和边缘设备上运行LLM需要激进的量化。MUXQ重新分配而非丢弃异常值信息的方法,可以实现更高质量的设备端AI推理。
← Previous: Federated Unlearning Made Practical: First Complete Pipeline with Visual Evaluation FrameworkNext: Spectroscopy ML Warning: Near-Perfect Accuracy Can Be Completely Misleading Due to High-Dimensional Data →
0