多模态基础大模型-预训练解决方案 2024

AI大模型_学习君 2024-10-04 10:31:05 阅读 85

当前，新一代人工智能已成为世界各国的竞争焦点，抢占未来技术战略制高点意义重大。由于持续开放的动态环境、各行业领域不断攀升的系统复杂度以及快速扩大的数据规模总量，智能技术应用需求不断增长，智能形态和认知水平持续深入发展。

从互联网到移动互联网再到物联网、星联网时代，计算硬件体积不断压缩、功耗与成本持续降低，新一代人工智能已经成为共性支撑技术，推动经济、社会、民生、国家安全、制造等领域进行数字化和智能化转型。

另一方面，伴随互联网/行业大数据、并行计算能力、机器学习算法的突破和人类智能本质认知探索的深入，新一代人工智能发展还在继续加速。

随着生成式预训练 (Generative Pre-Train ， GPT) 、基于Transformer 的双向编码器表达 (Bidirectional EncoderRepresentation from Transformers, BERT)、GPT-3、DALL-E、SwitchTransformer、华为盘古、悟道、ERINE、M6 等大规模预训练模型快速涌现，人工智能研究领域正在经历一场有监督学习向无监督学习条件下“大数据+大模型”的大规模预训练范式转变，即基于海量广域数据训练并且经过微调学习自动适应应用于广泛下游任务的模型。

大规模预训练模型起源于自监督的语言模型，自监督的深度语言神经网络模型最初只在自然语言处理领域展开研究，直到 2018 年 BERT 模型在 11 项 NLP 任务基准上都打破了纪录，取得了巨大成功，性能远超第二名。

2019 年以后，基于自监督学习的语言模型已成为基础性方法，这与 2012 年基于卷积神经网络 AlexNet 在 ImageNet2012 上的突破很相似，标志着一个大模型时代的开始。

当下，自然语言处理(Natural Language Processing, NLP)领域几乎所有的目前最先进的模型(State-Of-The-Art model,SOTA)都是基于 Transformer 的大模型架构进化而来的，而这种趋势也正在向图像、视频、语音等不同模态、不同领域扩散蔓延。

**人工智能从单模态有监督迈向多模态自监督学习时代。**目前网络数据中 90%以上是图像与视频，更多知识蕴含其中。人类的信息获取、环境感知、知识学习与表达，都是采用跨模态的输入输出方式。

如何设计计算机模型并使其具有强大的无监督学习与通用知识迁移能力，使不同领域任务在统一框架下实现基于低标注代价的性能提升？一种可行的路径是通过跨模态语义关联，提升多模态融合理解以及跨模态转换与生成性能。

当前，单模态预训练模型在数据规模和模型性能方面已经遇到瓶颈，而且单模型只涵盖了互联网数据中的单一模态信息，更丰富的包含文本、语音、图像、视频等多种模态数据的信息并未被充分利用与学习。

此外，人类的信息获取、环境感知、知识学习与表达，都是通过多模态信息方式进行执行。因此，为实现更加通用的人工智能模型，预训练模型必然由单模态往多模态方向发展，需将文本、语音、图像、视频等多模态内容联合起来进行学习，并专注多模态内容之间的关联特性与跨模态转换问题。

这样一方面可以引入多维度的信息，另一方面可以利用互联网上大量的多模态数据，使得模型能够学习更通用化的特征表示，以此增强模型的通用性和泛化能力。

1.1 多模态基础大模型简介

多模态预训练大模型架构与 GPT 和 BERT 类似，也是基于自注意力机制 Transformer 深度学习模型，其最大特点是模型的输入由单一模态的文本拓展到文本、语音、图像、视频等多个模态数据同时作为输入。

多模态大模型主要指输入包括两种及以上模态的、参数量大于亿级的深度学习网络模型。单模态大模型主要是指模型输入只包括一种模态（如只包括语音、图像或文本）的、大规模参数量的深度神经网络模型。

一个关键的科学问题是如何设计神经网络模型并使其具有强大的无监督学习与通用知识迁移能力，使不同领域任务在统一框架下实现基于低标注代价的性能提升。

一种可行的路径是通过跨模态语义关联，提升多模态融合理解以及跨模态转换与生成性能。

多模态预训练模型通常采用无监督学习的方法进行大规模训练，预训练数据来自互联网上大量的多模态数据，例如网页、视频等，无需人工标注，从而具有良好的拓展性和通用性。

在不微调或采用少量数据微调的情况下，多模态预训练模型就可直接用于解决不同类型的多模态数据处理问题，例如为视频自动配上字幕、声音，输入声音和文本自动生成图像或视频片段等。多模态数据相比单模态数据更具有研究意义，但同时也存在更多的困难与挑战。

具体而言，多模态预训练模型的研究面临以下挑战：

（1）模型构建不完善

现有的多模态预训练模型往往忽略了视觉内容的语义编码，对视觉内容常使用离线训练的目标检测模型进行编码，然后进行“图像-文本”的匹配，而“目标-语义”才是实际任务中真正的需求所在。

另一方面，现有模型的训练方式和优化机制沿用了语言预训练模型的范式，相对于 NLP 任务中的自由文本，多模态对齐数据的获取难度大，面临着数据噪声大、不同模态缺失等挑战。

为此，需围绕基于全注意力机制的跨模态关联建模，对 Transformer 模型在视觉中的应用进行改进；充分发挥多模态预训练模型对不同模态数据间关联互补特性的有效建模能力，以及模态信息缺失情形下的鲁棒分析能力；设计与多模态预训练模型网络结构尽可能兼容的多任务学习机制，优化模型参数的学习机制。

（2）知识利用不充分

目前，多模态预训练领域通过增加训练数据和计算资源来提升模型的性能，而这种粗放耗能方式和人类大脑的集约计算方式是完全不一样的，并且这种粗放的学习方式随着数据量和计算机资源的增长，所带来的收益会越来越小，而且很快会达到性能瓶颈。

另外，数据≠知识，数据是未经组织和处理的文本、声音、图像和视频，本身没有意义；而知识与内容相关，是可表示、可计算、可生长、有逻辑、可推理的更高层智能载体，是有意义的。

为此，需构建知识引导的多模态预训练模型，研究多模态数据与知识统一表征的预训练模型构建、知识嵌入的多模态预训练模型构建方法、大规模预训练模型的可解释性理论，提升模型的可信可解释性。

（3）理解与生成不统一

多模态内容的理解与表达是人类智能中的最重要能力之一。然而，现有的预训练模型通常极少同时具备理解与生成能力，他们要么仅仅关注理解类而缺乏生成的能力，或者仅关注生成任务却对理解类任务表现欠佳。

在实际应用中也通常需要同时对多模态数据进行理解和生成。为此，需研究多模态内容理解与生成任务统一建模，面向理解与生成任务相关的多种下游任务，包括语音识别、语音合成、视觉描述、视觉问答、视觉内容生成、跨模态检索等具体应用，设计与多模态预训练模型尽可能兼容的多任务学习机制，使得各个任务的学习能够互相兼容、互为增强，各个任务可以从其他任务中所学到的技能和知识中收益，在提升模型性能和泛化能力的同时，赋予预训练模型更强的通用性。

（4）应用部署代价高

大规模预训练模型通常包含数以亿计的参数，海量的参数量使得预训练大模型在下游任务微调和推理解码时速度慢，对计算资源要求高，计算成本大，并且无法满足线上系统的实时性要求，导致无法在实际场景开展高效部署应用。因此，需研究面向应用部署的模型推理加速、面向特定任务的模型泛化与迁移学习，实现高效的预训练学习算法，同时保障预训练模型泛化性和鲁棒性。

2多模态语言大模型国内外发展现状****

2.1 语言大模型国内外发展现状

近年来，随着 ELMo[1]、GPT-1[2]、BERT[3]、GPT-2[4]与 GPT-3[5]等预训练语言模型的发布，预训练技术这场革新正在自然语言处理领域悄然展开，并迅速影响到它的各个子领域之中。

顾名思义，预训练指的是使用通用性的任务和大规模的无标注数据进行第一阶段的训练，让机器学习模型学习到具有较强泛化性的参数。接下来，对于特定的下游任务，模型仅需对学习好的参数进行微小的调整（或训练）就能够完成高效迁移，达到显著的性能表现。

上述方法被我们称作“预训练+微调”，该范式逐步覆盖自然语言处理的各大任务并带来了显著的改进，如文本分类、阅读理解、序列标注和文本生成等。

图 2.1-1 预训练语言模型发展脉络图

预训练语言模型发展迅速，发展脉络如图 2-1 所示。我们对近年来国内外的相关研究做了简单的分类，其中大部分研究可以被归纳到以下三类：

预训练方法优化与改进；

面向目标任务的预训练方法；

超大规模模型高效训练框架（M6、华为、抖音）；

我们对于这三个方向的发展分别进行总结。

2.1.1预训练方法优化与改进

(1)自回归与自编码的预训练方法自回归方法是传统条件语言模型常用的训练方法，例如 GPT，它旨在训练模型根据给定的上文预测当前词汇，如图 2.1-2 所示，模型根据语句部分“the sky is”来预测即将出现的词汇“blue”。对于句子 x，自回归模型按照最大化对数似然损失的方式进行参数优化，公式如下：

自编码的预训练方法代表性的工作是掩码语言模型，如 BERT。简单来说，模型需要通过对于遮盖数据的预测进行参数优化。如图2.1-2 所示，我们将输入中“blue”用掩码[mask]代替，让模型在输出层预测出“blue”。对于句子 x，假设其中存在 m 个需要预测的词汇，那么其损失函数的形式化表示可以写作：

自回归预训练模型擅长于文本生成，能够进行文本创作和新闻撰写等；自编码预训练模型侧重于文本理解，能够迁移到多种下游任务中获取强大的性能改进。在这两类预训练方法的基础上，各种不同的模型相继被提出，预训练的研究如雨后春笋般发展起来。

(2)自回归与自编码的统一框架

自回归和自编码两类预训练方法各有优劣，大量的研究讨论如何将他们的优势进行统一。在各种改进的预训练方法中，排列语言模型和序列到序列的方法影响最大，它们间接地将自回归和自编码统一在同一个框架中，同时发挥文本生成和文本理解的作用。

XLNet[6]是一类排列语言模型。它打乱文本序列的顺序，但仍然预测原始文本中的下一个词汇。通过这种方式，XLNet 可以同时利用左侧和右侧文本的信息，模拟自编码的形式实现自回归的任务，在一系列下游任务上取得了显著的性能改进。

图 2.1-3 自回归训练模型

自回归训练方法虽然可以进行文本生成，但是没有对于给定前缀和生成内容进行区分。序列到序列的预训练方法应运而生，这类方法对于条件生成任务非常有效。

常见的模型如基于掩码的序列到序列预训练框架 MASS、基于序列到序列模型的降噪自编码器 BART等。MASS 能够对编码器和解码器进行联合训练提高特征抽取和语言模型的表征能力，对基于少量样本的语言生成任务，如机器翻译、文本摘要和对话生成等，进行参数微调能够获得较好的性能。BART 通过先损坏文档再解码恢复的策略实现从损坏文档到原始文档之间的鲁棒映射。

另一类方法使用注意力机制将理解和生成任务结合起来，如UniLM等。对于理解任务，模型打开双向注意力，同时关注上文和下文；对于生成任务，模型在计算注意力分布的时候将后续文本进行遮盖；当然，模型也能够结合二者来实现条件生成任务，如图 2.1-4所示。

图 2.1-4 UniLM 框架示意图

(3) 预训练的经验性训练方法

除了基本训练方法和模型结构的设计，研究者们也开始探讨如何设置训练的参数来达到更好的效果。

Meta 的研究者通过调整 BERT 训练过程中的批处理大小和学习率发现，更大的批样本能够显著改进预训练的效果，发布了 RoBERTa 模型；

华为基于 BERT 和 GPT 提出 NEZHA 模型，提供了更加丰富的训练技巧；

百度提出的 ERNIE 1.0和 ERNIE 2.0，在 BERT的基础上进行了全词掩码，在中文任务上取得了更好的效果；

ZEN 模型融入了 n-gram 信息，取得了相比于 BERT 模型更好的收敛速度和性能表现；

MacBERT则使用相似词替换[MASK]字符，以缓和预训练和下游任务的不一致性。

这些研究表明，预训练语言模型的训练不仅是科学研究问题，也是工程问题，因此如何更好地设计训练方法发挥模型最大的效用也是工业界主要探索的问题之一。

2.1.2 面向目标任务的预训练语言模型

(1)多语言融合的预训练模型

融合多语言的预训练模型旨在使用同一套参数处理多种不同的语言文本。该方法可以捕捉不同语言之间的相似性规律，从而达到互相帮助的效果。

常见的多语言预训练模型往往包含两种，一种是仅使用单语数据训练，让模型自动捕捉不同语言之间的相似性规律，如 XLM-MLM 模型等；另一种则同时使用单语数据和平行数据，充分发挥训练语料的能力，如 XLM-TLM 模型等。

多语言融合的预训练模型往往能够在跨语言任务上取得不错的性能表现，如机器翻译、跨语言问答等，也具备很好的语言迁移能力。但是，该类模型的训练方法与单语训练方法基本保持一致，我们认为，如何根据语言之间的规律设计训练方法是该领域未来研究的核心。

(2)融入外部知识的预训练模型

预训练语言模型通过对大规模文本数据统计规律的捕捉，蕴含了一定程度知识信息，如语言学知识和事实性知识等。但是，这种知识仍然存在噪声，模型仍需要具备见多识广的能力。

一些工作希望将知识图谱中的事实三元组信息融入到预训练模型中，清华和华为提出 ERNIE 模型，使用额外的知识融合层次将知识信息在预训练阶段注入到模型之中。当然，也有研究探讨直接在推理阶段使用知识对于文本表示进行增让，如 K-BERT[16]，它使用树状结构约束自注意力分布，减少结构化知识影响的同时，增强文本表示的知识性。

除了将外部知识融入预训练之中，将预训练本身蕴含的知识进行抽取也是当前研究的热点之一，常见的方法如基于提示的方法，虽然可以抽取到一定程度的事实性知识，但是仍然存在较多噪声，如何将噪声去除也是当前该方向上亟待探索的关键问题之一。

(3)面向对话生成的预训练模型

人机对话模型旨在让机器理解人类语言，并根据人类语言的意图执行特定任务或做出相应回答，从而实现与人类进行自由交流与沟通的目标。

目前对话模型大致可分为两类，

一类为任务型对话模型，例如智能客服、问答系统等，主要是针对特定领域内具体任务而设计的；

另一类是开放域对话模型，以达到人与人之间自由、无约束的闲聊水平为目的。随着深度学习与神经网络的不断发展，端到端的对话模型已经成为主流的设计方案。

端到端的对话模型一般由编码器和解码器两部分构成的，编码器接收历史信息并对其进行编码，解码器根据编码结果生成对应的回复。 模型能够通过编码器学习到语言信息的良好表征，并从中获取语义等更深层次的信息，从而在后续的解码阶段模型才能够生成语义通顺、逻辑一致的高质量回复。

此外，为了学习到能够媲美人类的语言表征和理解能力，对话模型往往有着大规模的参数且在海量的人类对话数据上进行训练。近几年来，国内外在对话模型方面的研究也是成果斐然，越来越多大规模、性能卓越的对话模型的发布也是不断刷新了人机对话的各类评价指标。

百度的 PLATO 系列模型在全球独树一帜，最新发布的PLATO-XL[17]也成为了全球最大的对话生成模型。2019 年百度发布了通用领域的对话模型 PLATO，该模型首次提出了将离散隐变量与Transformer 的编码器-解码器结构相结合，离散隐变量的每一个取值都与一个回复意图相对应，从而对上文历史信息与回复之间“一对多”的关系进行有效的建模。

在编码过程中使用双向的编码器，达到充分理解上下文信息的目的，在解码过程中使用单向的解码器，结合隐变量对应的意图自回归式地生成合理的回复。

2020 年百度在 PLATO的基础上进一步扩展优化提出了PLATO-2，该模型通过扩展网络层数，增加训练集数据，将模型增加到 16 亿参数。

此外，PLATO-2 将具体训练过程分为两个阶段：

第一阶段，在一对一映射的简化框架下，训练粗粒度生成模型来学习回复生成；

第二阶段，进一步训练细粒度生成模型和评估模型，其中细粒度生成模型显式地建模一对多关系，评估模型则用来学习回复的一致性从而选择最合适的回复。

PLATO-XL作为 2021 年发布的全球首个百亿参数的模型，也在 PLATO、PLATO-2模型的基础上进一步增强了模型对话理解和回复生成的能力。由于训练语料？大多是社交媒体对话，涉及多个角色且对话话题较广，因此模型难以区分历史信息中不同角色的观点与信息，从而会产生前后不一致的回复。

针对此类问题，PLATO-XL 进行了多角色感知的预训练，以生成更加流程一致的回复。PLATO-XL 凭借其千亿级的训练语料和百亿级的参数规模已经在各类评估指标上显著超越了目前主流的对话模型。

Facebook 提出的 Blender 对话模型具有仅次于 PLATO-XL 的 94亿参数，是一个强大的综合人工智能聊天机器人框架。

该模型结合了三个子模型：检索模型、生成模型、检索+生成模型。

检索模型以对话历史信息为输入，在候选集中对每一个响应进行评分，并从中选择最合适的作为回复；

生成模型采用经典的端到端的 Transformer 结构，根据历史信息直接生成回复；

检索+生成模型采用了“检索和提炼“的方式，首先检索出候选的回复，再将该候选传入生成器中作为参考，进一步产生更加高质量的回复。

Blender 也是凭借上述模型提供的先进的解码生成策略和混合技能，集移情、知识、个性于一体，在各领域内都达到了能与人自然交互对话的水平。

尽管现有的对话模型已经达到了媲美人类的对话水平，但是依旧存在不少问题亟待解决：

1）模型会经常重复对方的说话内容，产生较为普遍的迎合式或者附和式回复，缺乏个性化、新颖的对话内容；

2）模型无法记住所有的历史信息，也无法根据对话内容建立逻辑上的联系，因此很容易产生自相矛盾、前后不一致的情况；

3）模型缺乏对知识和客观事实的理解，除非针对特定领域精心挑选训练数据，否则模型很容易产生与客观事实相悖等错误。想要完美解决上述问题是十分困难的，如何构建一个真正像人类一样智能的对话模型仍然是当今人工智能领域的一大挑战。

(4)预训练语言模型的蒸馏与压缩

预训练语言模型虽然在自然语言任务中取得了很好的效果，但是这类模型参数量较大，难以满足实际应用中的时间和空间需求。为了缓解该问题，研究者们开始讨论使用知识蒸馏的方法来进行预训练模型压缩和加速，代表性工作如 DisilBERT[18]、MobileBert[19]，在原有的损失基础上增加了蒸馏损失项和词向量余弦损失，让小模型也具备大模型的能力。

除了基础的蒸馏方法，现在的工作也开始探讨针对特定任务的蒸馏、渐进式的知识迁移等，更大程度上保留模型原本能力的同时减小体积、提升解码速度。