Hypura:面向 Apple Silicon 的存储感知 LLM 推理调度器
Available in: 中文
Hypura 是一个新的开源存储感知 LLM 推理调度器,专为 Apple Silicon 设计,优化模型数据在 RAM 和存储之间的移动,使更大的模型能在内存受限的 Mac 上高效运行。
Hypura 为 Apple Silicon 上的 LLM 推理引入分层存储优化
一个名为 Hypura 的新开源项目推出了一款存储分层感知调度器,用于在 Apple Silicon Mac 上运行 LLM 推理。该工具优化了模型数据在推理期间在内存和存储之间的移动,解决了在内存受限设备上运行大模型的关键瓶颈。
问题所在
在 Apple Silicon 上运行大型语言模型很流行但充满挑战:
- 统一内存限制——即使高端 M 系列 Mac 也只有 128GB 或 192GB 的统一内存
- 模型不断增大——700 亿+参数的模型通常超出可用 RAM
- 存储速度很重要——当模型必须卸载到 SSD 时,I/O 速度成为瓶颈
Hypura 的工作原理
Hypura 为推理管道增加了智能:
- 存储分层感知——理解 RAM、NVMe SSD 和较慢存储的性能特征
- 智能预取——预测哪些模型层将被需要并主动加载
- 层调度——优化从存储加载层的顺序和时机
- 零拷贝操作——最小化内存层级之间的数据复制
为什么选择 Apple Silicon
Apple Silicon 的统一内存架构既是优势也是约束。虽然内存带宽极佳(M3 Max 为 400 GB/s),但总容量在购买时固定。Hypura 最大化了在任何给定 Mac 配置上能有效运行的模型大小。
影响
- 在不升级硬件的情况下运行更大的模型
- 减少部分卸载模型的推理延迟
- 延长旧款 Apple Silicon Mac 在 AI 工作负载中的使用寿命
- 与 llama.cpp 和 MLX 等 Apple AI 生态工具互补
该项目可在 GitHub 上以 t8/hypura 获取。
← Previous: TurboQuant: Google Research Achieves Extreme AI Model Compression Without Quality LossNext: Zhang Xuefeng, China's Most Influential Education Advisor, Dies at 41 →
0