#动量调度 - SijiGPT

2026/4/1

Beta调度：来自临界阻尼的动量作为神经网络训练的诊断和修正工具

标准的神经网络训练使用恒定的动量（通常为0.9），这一惯例自1964年以来延续，但其最优性理论依据有限。研究推导出了一种基于临界阻尼谐振子的时间变化动量调度：mu(t) = 1 - 2*sqrt(alpha(t))，其中alpha(t)为当前学习率。该beta调度在现有学习率调度的基础上不需要额外的自由参数。在ResNet-18/CIFAR-10上，beta调度相比恒定动量实现了1.9倍更快的收敛...

#动量调度 #临界阻尼 #神经网络训练 #梯度归因 #收敛速度

Beta调度：来自临界阻尼的动量作为神经网络训练的诊断和修正工具

🔗 相关标签