Flamingo是一种视觉语言模型,即它接受交替的文本和视觉数据流(图像和视频)作为输入,并能够以解码器Transformer的方式用额外的文本完善提示。其通过视觉编码器和Perceiver重采样器将视...
浏览 69 次 标签: AIGC实战——多模态模型Flamingo