Transformer——逐步详解架构和完整代码搭建

Transformer是一个经典的编码解码结构,编码器decoder负责编码,解码器encoder负责解码。Transformer是基于seq2seq的架构,提出时被用在机器翻译任务上,后面变种‌SwinTran...

【人工智能】结合代码通俗讲解 Transformer 推理性能优化技术:KV Cache

本文介绍了Transformer模型推理性能优化技术KVCache,通过缓存Self-Attention和Cross-Attention中的键值对,减少重复计算,提升解码速度。在大模型如GPT中,KVCache能有效减少计算量,尤其...

变分信息瓶颈 (Variational Information Bottleneck) 公式推导

互信息互信息用于表示两个随机变量相互依赖的程度。随机变量\(X\)和\(Y\)的互信息定义为\[\begin{aligned}I(X,Y)&=\mathrm{KL}[p(\boldsymbol{x},\boldsymbol{y}...

【AI大模型】解锁AI智能:从注意力机制到Transformer,再到BERT与GPT的较量

在AI技术的迅猛发展中,注意力机制成为了关键驱动力,赋予机器高效处理复杂信息的能力。本文深入探索注意力机制及其核心应用——Transformer架构,解析其如何通过自注意力机制革新自然语言处理。同时,对比分析GP...

Transformer 论文通俗解读:FFN 的作用

在经过前面3节关于Transformer论文的解读之后,相信你对提出Transformer架构的这篇论文有了一定的了解了,你可以点击下面的链接复习一下前3节的内容。总的来说,这篇论文虽然重要且经典,但很多...

论文阅读-Transformer Layers as Painters

尽管大语言模型现在已经被广泛的应用于各种任务,但是目前对其并没有一个很好的认知。为了弄清楚删除和重组预训练模型不同层的影响,本文设计了一系列的实验。通过实验表明,预训练语言模型中的lower和finallayer...

多模态大模型应用中的Q-Former是什么?

在这篇博客中,我们将详细探讨Q-Former的工作原理、应用场景,并在必要时通过公式进行解释,帮助你全面理解这一前沿技术。通过本文的介绍,希望你对Q-Former的工作原理、应用场景以及在BLIP2中的具体应用有了更...

深度学习的前沿主题:GANs、自监督学习和Transformer模型

深度学习的前沿技术包括生成对抗网络(GANs)、自监督学习和Transformer模型。GANs通过生成器和判别器的对抗训练生成高质量数据,自监督学习利用数据的内在结构在无标签数据上学习有效特征,Transfor...

一文彻底搞懂Transformer - Add & Norm(残差连接和层归一化)

在Transformer模型中,Add&Norm(残差连接和层归一化)是两个重要的组成部分,它们共同作用于模型的各个层中,以提高模型的训练效率和性能。网络退化:网络退化(Degradation)是深度学习中一个...

transformer(李宏毅老师系列)

decoder会把自己的输出作为接下来的输入之一,当decoder看到错误的输入,再被decoder自己吃进去,可能会造成errorpropagation,一步错步步错。但是,在训练时,是对每一个生成的toke...