📄 中文摘要
谷歌在2026年ICLR上发布了TurboQuant,这是一种将变换器KV缓存压缩到每个坐标4位的技术,且没有准确性损失。根据论文的报告,在H100 GPU上,内存减少了5-6倍,测试对象包括Gemma和Mistral等文本模型。作者对该技术在处理视频的视觉语言模型上的有效性进行了测试,并在72小时内将turboquant-vllm发布到PyPI,供消费者GPU使用。快速入门指南提供了安装和使用的基本命令。
Powered by Cloudflare Workers + Payload CMS + Claude 3.5
数据源: OpenAI, Google AI, DeepMind, AWS ML Blog, HuggingFace 等