模型参数量与显存占用分析

由于反向传播、Adam优化和Transformer架构等因素,保守估计,训练所需的显存是模型参数所占显存的4倍(1x为模型、1x为梯度、1~2x为优化器)。为了确保训练期间模型收敛,参数类型一般不能是int8...