多模态大模型 intern_vl 2.0版本解读

samoyan 2024-09-08 16:31:01 阅读 95

目录

更大规模的语言模型

多模态输入

多任务输出

性能表现


github:GitHub - OpenGVLab/InternVL: [CVPR 2024 Oral] InternVL Family: A Pioneering Open-Source Alternative to GPT-4o. 接近GPT-4o表现的可商用开源多模态对话模型

论文:https://arxiv.org/pdf/2404.16821(还是internvl1.5)

Type Model Date HF Link MS Link Document
Multimodal Large Language Models InternVL2-1B 2024.07.08 🤗 link 🤖 link 📖 doc
InternVL2-2B 2024.07.04 🤗 link 🤖 link 📖 doc
InternVL2-4B 2024.07.04 🤗 link 🤖 link 📖 doc
InternVL2-8B 2024.07.04 🤗 link 🤖 link 📖 doc
InternVL2-26B 2024.07.04 🤗 link 🤖 link 📖 doc
InternVL2-40B 2024.07.08 🤗 link 🤖 link 📖 doc
InternVL2-Llama3-76B 2024.07.15 🤗 link 🤖 link 📖 doc
InternVL2-108B TODO TODO TODO TODO
InternVL2-Pro TODO TODO TODO TODO
Vision Foundation Model InternViT-300M-448px 2024.05.25 🤗 link 🤖 link 📖 doc
InternViT-6B-448px-V1-5 2024.04.20 🤗 link 🤖 link 📖 doc

我们介绍了InternVL2,这是目前最强大的开源多模态大语言模型(MLLM)。InternVL2家族包括从适合边缘设备的1B模型到显著更强大的108B模型。通过更大规模的语言模型,InternVL2-Pro展示了出色的多模态理解能力,在各种基准测试中表现与商业闭源模型相当。

InternVL2家族基于以下设计理念:

更大规模的语言模型

我们引入了一种渐进对齐训练策略,首次实现了与大语言模型原生对齐的视觉基础模型。通过这种从小到大、从粗到细的渐进训练策略,我们在相对低成本下完成了大模型的训练。这种方法在有限资源下表现出色。

多模态输入

我们的模型支持多种模态的输入,包括文本、图像、视频和医疗数据,只需一组参数即可实现。

多任务输出

借助我们最近的工作VisionLLMv2,我们的模型支持多种输出格式,如图像、边界框和掩码,展示了广泛的多功能性。通过将MLLM与多个下游任务解码器连接,InternVL2能够推广到数百个视觉语言任务,并实现与专家模型相当的性能。

Name InternVL2-2B InternVL2-4B InternVL2-8B InternVL2-26B InternVL2-40B InternVL2-108B
模型大小 Total 2.21B 4.15B 8.08B 25.51B 40.07B 108.70B
ViT 304.01M 304.01M 304.01M 5.54B 5.54B 5.54B
MLP 12.60M 22.03M 33.57M 116.43M 143.17M 172.01M
LLM 2.21B 3.82B 7.74B 19.86B 34.39B 102.99B
分辨率 动态分辨率,训练时最大为12个448×448的块,测试时最大为40个块(4K分辨率)。
Stage-1 Training Data 我们扩展了InternVL 1.5中使用的预训练数据集,收集了来自多种来源的数据。这些数据集涵盖了多个任务,包括描述、视觉问答、检测、定位和OCR。OCR数据集使用PaddleOCR对来自悟空的中文图像和来自LaionCOCO的英文图像进行OCR,并进行了人工验证。此外,我们还抓取并手动解析了来自uworld、kaptest、testbank、aga和sat的考试数据。还利用了来自OmniCorpus的交错数据。
Trainable Module MLP
Stage-2 Training Data 我们基于InternVL 1.5中使用的500万高质量双语数据集构建了训练数据。具体来说,我们包括了视频数据如EgoTaskQA、Mementos、STAR、NTU RGB+D、VideoChat2IT和LSMDC-QA,以及医疗数据如Medical-Diff-VQA、Pathology-VQA、PMC-CaseReport、PMC-VQA、Slake和VQA-RAD。我们还包括了SROIE、FUNSD和POIE,以进一步增强模型识别手写字体的能力。此外,我们排除了所有来自ShareGPT-4V的数据,并用ShareGPT-4o的数据替代。
Trainable Module ViT + MLP + LLM

性能表现

InternVL2在处理复杂多模态数据方面展示了强大的能力,尤其在数学、科学图表、通用图表、文档、信息图和OCR任务中表现出色。例如,在MathVista基准测试中,InternVL2达到了66.3%的准确率,显著超越了其他闭源商业模型和开源模型。此外,InternVL2在多个基准测试中达到了最先进的性能,包括通用图表基准测试ChartQA、文档基准测试DocVQA、信息图基准测试InfographicVQA以及通用视觉问答基准测试MMBench。

值得注意的是,在AI2D基准测试中有两种评估设置。在第一种设置中,我们将图像中矩形内的内容替换为选项的字母。在第二种设置中,我们将矩形内的内容替换为选项的字母和数值。我们的模型在第一种设置中达到了87.3的性能,在第二种设置中达到了96.0的性能。

专有模型

name MMMU

(val)

MathVista

(testmini)

AI2D

(test)

ChartQA

(test)

DocVQA

(test)

InfoVQA

(test)

OCRBench MMB-EN

(test)

MMB-CN

(test)

OpenCompass

(avg score)

GPT-4V*

(20240409)

63.1 / 61.7 58.1 89.4 78.1 87.2 - 678 81.0 80.2 63.5
Gemini Pro 1.5* 58.5 / 60.6 57.7 80.3 81.3 86.5 72.7 754 73.9 73.8 64.4
Claude3.5-Sonnet* 68.3 / 65.9 67.7 94.7 90.8 95.2 - 788 79.7 80.7 67.9
GPT-4o*

(20240513)

69.1 / 69.2 63.8 94.2 85.7 92.8 - 736 83.4 82.1 69.9
Cambrian-1 49.7 / 50.4 53.2 79.7 75.6 75.5 - 600 81.4 - 58.3
LLaVA-NeXT Qwen1.5 50.1 49.0 80.4 79.7 85.7 - - 80.5 - -
InternVL2-Pro 58.9 / 62.0 66.3 87.3 / 96.0 87.1 95.1 83.3 837 87.8 87.2

71.8

name MMMU

(val)

MathVista

(testmini)

AI2D

(test)

ChartQA

(test)

DocVQA

(test)

InfoVQA

(test)

OCRBench MMB-EN

(test)

MMB-CN

(test)

OpenCompass

(avg score)

InternVL2-1B 35.4 / 36.7 37.7 64.1 72.9 81.7 50.9 754 65.4 60.7 48.3
InternVL2-2B 34.3 / 36.3 46.3 74.1 76.2 86.9 58.9 784 73.2 70.9 54.0
InternVL2-4B 47.0 / 48.3 58.6 78.9 81.5 89.2 67.0 788 78.6 73.9 60.6
InternVL2-8B 49.3 / 51.2 58.3 83.8 83.3 91.6 74.8 794 81.7 81.2 64.1
InternVL2-26B 48.3 / 50.7 59.4 84.5 84.9 92.9 75.9 825 83.4 82.0 66.4
InternVL2-40B 53.9 / 55.2 63.7 87.1 86.2 93.9 78.7 837 86.8 86.5 69.7
InternVL2-Llama3-76B 55.2 / 58.2 65.5 87.6 88.4 94.1 82.0 839 86.5 86.3 71.0
InternVL2-Pro 58.9 / 62.0 66.3 87.3 / 96.0 87.1 95.1 83.3 837 87.8 87.2 71.8

我们同时使用InternVL和VLMEvalKit仓库进行模型评估。具体来说,AI2D、ChartQA、DocVQA、InfoVQA和MMBench的结果是使用InternVL仓库测试的。MathVista和OCRBench的评估则使用了VLMEvalKit。

对于MMMU,我们报告了原始分数(左侧:使用InternVL代码库评估InternVL系列模型,并从技术报告或网页中获取其他模型的分数)和VLMEvalKit分数(右侧:从OpenCompass排行榜中收集)。请注意,使用不同的测试工具包(如InternVL和VLMEvalKit)评估同一模型可能会导致轻微的差异,这是正常现象。代码版本的更新以及环境和硬件的变化也可能导致结果的轻微差异。

除了上述提到的VQA基准测试外,我们还在MM-NIAH基准测试中评估了InternVL2-Pro。MM-NIAH是一个为长多模态文档理解设计的综合基准测试。如图所示,我们的模型结合了检索增强生成(RAG)技术,在理解长多模态文档方面表现与Gemini相当。在计数任务和涉及图像细节的其他任务上的性能提升将留待未来工作。有关结合RAG的InternVL2-Pro的更多细节,请参阅这篇论文。intern-vl 1.5 论文解读:How Far Are We to GPT-4V?-CSDN博客



声明

本文内容仅代表作者观点,或转载于其他网站,本站不以此文作为商业用途
如有涉及侵权,请联系本站进行删除
转载本站原创文章,请注明来源及作者。