transformer（李宏毅老师系列）

Moliay 2024-08-17 17:31:10 阅读 77

自学参考：

Transformer:Attention Is All You Need

Transformer论文逐段精读

视频课

课件+资料

笔记

一、引入

seq2seq：输入一个序列的向量作为input，output的长度由机器自己决定seq2seq model应用:

语音辨识

输入是声音讯号的一串vector

输出是语音辨识结果，即声音讯号对应的文字，输出长度由机器自行决定

在这里插入图片描述

机器翻译

输入一种语言的句子，长度为N

输出另一种语言的句子，长度为N’，N和N’之间的关系由机器自行决定

在这里插入图片描述

语音翻译

输入一种语言的语音

输出另一种语言的文字

不能用以上两种简单拼接，因为很多语言并没有对应的文字（例如一些方言）

在这里插入图片描述

语音合成Text-to-Speech (TTS) Synthesis

输入文字

输出声音讯号

在这里插入图片描述

聊天机器人Chatbot

输入和输出都是文字，利用人的对话进行train

在这里插入图片描述

问答系统Question Answering (QA)

输入和输出都是文字序列

许多nlp任务，都可以解读为QA任务，例如翻译、摘要、情感分析。而QA问题就可以用seq2seq model来解决

在这里插入图片描述

语法分析Syntactic Parsing

树状结构也可以视为一个sequence，从这个角度切入语法分析问题也可以视为：

输入一个语句

输出一个代表语法分析树的序列

在这里插入图片描述

多标签分类multi-label classification

multi-class classification:从多个class里为样本选某一个classmulti-label classification:同一个样本，可属于多个class

在这里插入图片描述

实体检测Object Detection

在这里插入图片描述

二、 seq2seq’s model =Encoder + Decoder

在这里插入图片描述

encoder

输入一排向量（序列）

输出另一排同样长度的向量（序列）

可使用self-attention、RNN、CNN

在这里插入图片描述

进一步分析,每个block都包含若干层(例如下图中是self-attention&FC)

每个block输入一排向量,输出一排向量

在这里插入图片描述

在transformer中：

在这里插入图片描述

在送入block前，要先进行positional encoding

在这里插入图片描述

每个block中的架构为

multi self-attentionresidual connection：把这个vector加上其input作为output(残差网络)layer normalization：对同一个feature，同一个example，不同的dimension，计算mean和standard deviation

区别：batch normalization:是对不同example,不同feature的同一个dimension,计算mean跟standard deviation

FC network也有residual架构把residual结果再做一次layer normalization得到的输出才是residual network里一个block的输出

decoder

以Autoregressive Decoder为主（AT）

向decoder输入encoder产生的向量

在decoder可能产生的文字里多加一个特殊字符BEGIN（BOS，begin of sentence）。在nlp问题中，每个token用一个one-hot的vector来表示，其中一维是1，其他全0，而BEGIN也用one-hot vector表示

decoder输出的一个向量长度和vocabulary size（取决于输出的单位。本例中输出中文，则size是中文方块字的数目）一样。在产生这个向量前，跑一个softmax，分数最高的一个中文字，即为最终的输出

在这里插入图片描述

把“机”作为decoder新的input，原来decoder的输入有BEGIN和“机”；

根据这两个输入，输出一个蓝色的向量；

根据这个蓝色的向量里给每一个中文的字的分数，来决定第二个输出，再作为输入，继续输出后续的字，以此类推……

decoder会把自己的输出作为接下来的输入之一，当decoder看到错误的输入，再被decoder自己吃进去，可能会造成error propagation,一步错步步错

⇒解决：teacher forcing技术

在这里插入图片描述

机器自行决定输出的长度：特别符号END（EOS）

在这里插入图片描述

在transformer中，除了中间部分，encoder和decoder没有太大的差别。最后部分，可能会再做一个softmax，使得它的输出变成一个概率分布

在这里插入图片描述

Masked self-attention:产生输出时，不能再看”右边“的部分

⇒因为实际上就是顺次产生的

在这里插入图片描述

Non-autoregressive (NAT)

NAT不是依次产生，而是一次吃的是一整排的 BEGIN 的 Token，把整个句子一次性都产生出来

问题：如何确定BEGIN的个数？

方法①： 另外训练一个 Classifier,吃 Encoder 的 Input,输出是一个数字,代表 Decoder 应该要输出的长度,方法②：给它一堆 BEGIN 的 Token,（比如输出的句子的最大长度长度,不超过 300）,给它 300 个 BEGIN,然后就会输出 300 个字。什麼地方输出 END表示这个句子结束。

NAT的好处：

并行化。NAT 的 Decoder 不管句子的长度如何,都是一个步骤就产生出完整的句子,所以在速度上,NAT 的 Decoder 比AT 的 Decoder 要快,容易控制输出长度。

常用在语音合成：有一个 Classifier决定 NAT 的 Decoder 应该输出的长度,并以此调整语音的速度。比如，要让你的系统讲快一点,那你就把那个 Classifier 的 Output 除以二,它讲话速度就变两倍快；如果你想要这个讲话放慢速度,就把Classifier 输出的长度乘两倍。

但是，虽然表面上看起来有种种的厉害之处,尤其是平行化是它最大的优势,但是 NAT 的 Decoder ,它的 Performance,往往都不如 AT 的 Decoder。

⇒ Multi-Modality

在这里插入图片描述