📄 中文摘要
在 PyTorch 和 Nebius 的联合努力下,成功在 256-GPU 的 NVIDIA B200 集群上使用 TorchTitan 训练 DeepSeek-V3 混合专家模型(16B 和 671B)。通过评估两种正交方法,MXFP8 和 DeepEP,显著提高了模型的预训练速度,达到了高达 41% 的提升。这一进展为大规模深度学习模型的训练提供了新的技术路径,推动了高效计算和资源利用的边界。
Powered by Cloudflare Workers + Payload CMS + Claude 3.5
数据源: OpenAI, Google AI, DeepMind, AWS ML Blog, HuggingFace 等