Transformer 中自注意力机制的 一些细节理解

摘自知乎博主作者:月来客栈首先让我们先一起来看看作者当时为什么要提出Transformer这个模型?需要解决什么样的问题?现在的模型有什么样的缺陷?现在主流的序列模型都是基于复杂的循环神经网络或者是构造而来的Enc...

【爆火】TransUNet:融合Transformer与U-Net的医学图像分割神器!

在医学图像分割领域,传统的U-Net模型已经取得了显著成果。然而,随着Transformer在计算机视觉领域的崛起,将其与U-Net结合的TransUNet模型成为了新的热门。TransUNet是一种融合了Tra...

《CrossViT: Cross-Attention Multi-Scale Vision Transformer for Image Classification》

本文提出一个双分支transformer,来组合不同尺寸的图像块(即transformer中的token),以产生更强的图像特征。该方法处理具有不同计算复杂度的两个独立分支的小块和大块token,然后纯粹通过注意力多次...

【人工智能】Transformers之Pipeline(十四):问答(question-answering)

本文对transformers之pipeline的问答(question-answering)从概述、技术原理、pipeline参数、pipeline实战、模型排名等方面进行介绍,读者可以基于pipeline使用文...

基于 Quanto 和 Diffusers 的内存高效 transformer 扩散模型

过去的几个月,我们目睹了使用基于transformer模型作为扩散模型的主干网络来进行高分辨率文生图(text-to-image,T2I)的趋势。和一开始的许多扩散模型普遍使用UNet架构不同,这些模型使用transformer架构作为扩散过程...

RWKV: 与Transformer和Mamba掰掰手腕的小家碧玉

开源项目RWKV是一个“具有GPT级别LLM性能的RNN,也可以像transformer并行训练。它主要是解决了Transformer的高成本。注意力机制是Transformer霸权背后的驱动力之一。_r...

7.2 Transformer:具有里程碑意义的新模型——自注意力模型

自此,不管是学术界,还是工业界均掀起了基于Transformer的预训练模型研究和应用的热潮,并且逐渐从NLP领域延伸到CV、语音等多项领域。Transformer模型是一个具有里程碑意义的模型,它的提出催生了众...

Transformers模型实例化方法:AutoModel、AutoModelForCausalLM

Transformers包括管道pipeline、自动模型auto以及具体模型三种模型实例化方法,如果同时有配套的分词工具(Tokenizer),需要使用同名调度。在上述三种应用方式中:管道方式使用最简单,但灵活...

【人工智能】Transformers之Pipeline(十三):填充蒙版(fill-mask)

本文对transformers之pipeline的填充蒙版(fill-mask)从概述、技术原理、pipeline参数、pipeline实战、模型排名等方面进行介绍,读者可以基于pipeline使用文中的2行代码极...

【大模型】Transformers库单机多卡推理之device_map

HuggingFace的库支持自动模型(AutoModel)的模型实例化方法,来自动载入并使用GPT、ChatGLM等模型。在方法中的device_map参数,可实现单机多卡推理。_transformer多卡推理...