📄 中文摘要
FlexAttention 现已在 Hopper 和 Blackwell GPU 上集成了 FlashAttention-4 后端。PyTorch 添加了对 CuTeDSL 分数/掩码修改函数的自动生成支持,并实现了 FlashAttention-4 的 JIT 实例化,以便于用户自定义。这一进展显著提升了模型的计算效率和灵活性,使得在处理大规模数据时能够更快速地进行训练和推理,满足了日益增长的计算需求。
出处: FlexAttention + FlashAttention-4: Fast and Flexible
发布: 2026年3月5日
Powered by Cloudflare Workers + Payload CMS + Claude 3.5
数据源: OpenAI, Google AI, DeepMind, AWS ML Blog, HuggingFace 等