将多个不同模态的基础模型合并成优于各个部分的大模型非常有挑战;两个关键挑战:(1)对齐数据的可用性;(2)如何在跨领域生成任务中利用单模态表示且不损坏原始能力;本文提出称为Zipper的多塔解码器架构,利用交叉...
浏览 61 次 标签: 【极速前进】20240615-20240623:Zipper融合模态、VideoLLM视频理解、WebAgent可以自我改善、Nemotron-4、AnyGPT统一模态