关于大模型增量预训练新技巧-解决灾难性遗忘的资讯_大模型增量预训练新技巧-解决灾难性遗忘相关的资讯

2024-09-03 13:01:08

该方法主要通过增加恒定块扩展模型层数，使模型在增量训练过程中仅训练新增层、冻结原始层，保持模型原有能力，防止模型出现灾难性遗忘现象。但有两点存疑：目前来说mistral要好于llama，为啥不用mistral进行...