BLIP-2,基于现有的图像编码器预训练模型,大规模语言模型进行预训练视觉语言模型;BLIP-2通过轻量级两阶段预训练模型QueryingTransformer缩小模态之间gap,第一阶段从冻结图像编码器学习视...
浏览 52 次 标签: BLIP2-图像文本预训练论文解读