【多模态大模型paper阅读笔记-6】Grounding多模态,LLaVA-Grounding: Grounded Visual Chat with Large Multimodal Models

模型输入图像和用户指令,输出带有边界框的图像描述,每个边界框对应一个短语。_groundingbenchmarks...