关于AI多模态模型架构之模态编码器：图像编码、音频编码、视频编码的资讯_AI多模态模型架构之模态编码器：图像编码、音频编码、视频编码相关的资讯

2024-07-10 14:01:11

模态编码器(ModalityEncoder,ME)：负责将不同模态的输入编码成特征。常见的编码器包括图像的NFNet-F6、ViT、CLIPViT等，音频的Whisper、CLAP等，视频编码器等。输入投影...