AI多模态模型架构之模态编码器:图像编码、音频编码、视频编码

模态编码器(ModalityEncoder,ME):负责将不同模态的输入编码成特征。常见的编码器包括图像的NFNet-F6、ViT、CLIPViT等,音频的Whisper、CLAP等,视频编码器等。输入投影...