每日AIGC最新进展(46):上海AI Lab发布多模态大模型InternLM-XComposer-2.5、阿里发布视频生成大模型EasyAnimate-V3、快手发布人像模型LivePortrait

沉迷单车的追风少年 2024-08-10 09:31:01 阅读 62

Diffusion Models专栏文章汇总:入门与实战

InternLM-XComposer-2.5: A Versatile Large Vision Language Model Supporting Long-Contextual Input and Output

InternLM-XComposer-2.5(IXC-2.5)是由上海人工智能实验室等机构开发的一款多功能大型视觉语言模型,支持长上下文输入和输出。该模型在多种文本图像理解和创作应用中表现出色,仅凭7B的LLM后端就达到了GPT-4V级别的能力。IXC-2.5通过24K交错图像-文本上下文的训练,能够无缝扩展到96K长上下文,特别适用于需要广泛输入和输出上下文的任务。

IXC-2.5在视觉语言理解方面进行了三项重大升级:超高清分辨率理解、细粒度视频理解和多轮多图像对话。此外,IXC-2.5还扩展了两个引人注目的应用,使用额外的LoRA参数进行文本-



声明

本文内容仅代表作者观点,或转载于其他网站,本站不以此文作为商业用途
如有涉及侵权,请联系本站进行删除
转载本站原创文章,请注明来源及作者。