具体来说,AdEMAMix维护了一个快速变化的EMA,优先考虑最近的梯度,同时跟踪一个较慢变化的EMA,保留训练过程早期的信息。例如,在对RedPajama数据集上的一个13亿参数的语言模型进行训练时,研究...
浏览 56 次 标签: 以提升梯度效率并改善大规模模型训练性能 这篇苹果的AI论文介绍了AdEMAMix:一种利用双指数移动平均值的新型优化方法