📄 中文摘要
Dan Woods 的研究展示了如何在 48GB 的 MacBook Pro M3 Max 上以每秒 5.5+ 个令牌的速度运行定制版 Qwen3.5-397B-A17B,尽管该模型在磁盘上占用 209GB(量化后为 120GB)。Qwen3.5-397B-A17B 是一种专家混合模型(MoE),每个令牌只需与整体模型权重的子集进行计算。这种专家权重可以从 SSD 流式传输到内存中,从而避免了所有权重同时占用 RAM 的问题。Dan 采用了苹果 2023 年发布的技术来实现这一目标。