关于以提升梯度效率并改善大规模模型训练性能的资讯_以提升梯度效率并改善大规模模型训练性能相关的资讯

2024-10-04 13:01:08

具体来说，AdEMAMix维护了一个快速变化的EMA，优先考虑最近的梯度，同时跟踪一个较慢变化的EMA，保留训练过程早期的信息。例如，在对RedPajama数据集上的一个13亿参数的语言模型进行训练时，研究...