decoder会把自己的输出作为接下来的输入之一,当decoder看到错误的输入,再被decoder自己吃进去,可能会造成errorpropagation,一步错步步错。但是,在训练时,是对每一个生成的toke...
浏览 77 次 标签: transformer(李宏毅老师系列)