📄 中文摘要
标准的神经网络训练使用恒定的动量(通常为0.9),这一惯例自1964年以来延续,但其最优性理论依据有限。研究推导出了一种基于临界阻尼谐振子的时间变化动量调度:mu(t) = 1 - 2*sqrt(alpha(t)),其中alpha(t)为当前学习率。该beta调度在现有学习率调度的基础上不需要额外的自由参数。在ResNet-18/CIFAR-10上,beta调度相比恒定动量实现了1.9倍更快的收敛速度,达到90%的准确率。更重要的是,在该调度下的每层梯度归因产生了一种跨优化器不变的诊断:无论模型是使用何种优化器训练,均能识别出相同的三个问题层。