全网最细解读:何恺明新作再战AI生成,入职MIT后首次带队的首篇论文!打破自回归图像生成瓶颈!
马拉AI 2024-08-11 10:31:02 阅读 54
本文章仅用于学术分享
论文标题丨Autoregressive Image Generation without Vector Quantization
论文地址丨https://arxiv.org/abs/2406.11838
01总览
这篇文章提出了一种新的图像生成方法,该方法在自动回归模型的基础上进行了创新,消除了传统 的向量量化(Vector Quantization, VQ)步骤。文章的核心观点是,尽管自动回归模型在自然语言处理 中取得了巨大成功,但在图像生成领域,它们通常需要将连续的图像数据转换为离散的标记,这一过程 涉及到向量量化。然而,作者观察到自动回归模型的本质——基于先前信息预测下一个事件——与数据 的离散性或连续性无关。关键在于能够对每个标记的概率分布进行建模。
文章提出了一种新的扩散过程来对每个标记的概率分布进行建模,这一过程在连续值空间中操作, 不依赖于离散化的标记。这种方法使用了一种新的损失函数——扩散损失(Diffusion Loss),来代替传 统的分类交叉熵损失。扩散损失通过模拟数据的扩散过程来定义概率分布,允许模型在连续空间中进行 操作,从而避免了离散化带来的限制。
文章详细介绍了扩散损失的工作原理,包括如何使用去噪网络(例如小的多层感知机)来预测噪声 向量,并如何通过反向扩散过程来生成符合特定分布的样本。这种方法不仅提高了图像生成的质量,还 因为消除了离散化步骤,而享有序列模型的快速速度优势。
此外,文章还提出了一种将标准自动回归模型和掩码生成模型统一到一个广义自动回归框架的方 法。这个框架允许模型在随机顺序中预测多个输出标记,同时保持自动回归的性质。这种广义的自动回 归模型(Masked Autoregressive, MAR)可以与扩散损失无缝配合使用。
作者通过一系列实验验证了他们方法的有效性。实验结果表明,使用扩散损失的自动回归和掩码自 动回归模型在多个指标上均优于传统的基于向量量化的方法。特别是在ImageNet数据集上的256×256分 辨率图像生成任务中,模型能够以每秒不到0.3秒的速度生成图像,并且取得了非常低的Fréchet Inception Distance(FID)得分,这是一个衡量生成图像质量的指标。
文章还讨论了扩散损失的灵活性,证明了它可以与不同类型的标记器一起使用,包括向量量化标记 器和非向量量化标记器。此外,文章还探讨了扩散损失在控制样本多样性方面的温度参数的作用,以及 在不同模型大小和训练设置下的性能。
最后,文章讨论了这种方法的局限性和更广泛的影响。尽管在图像生成方面取得了显著成果,但作 者指出,他们的方法可能会产生带有明显伪影的图像,并且依赖于现有的预训练标记器。此外,文章还 提出了对计算资源的需求和在更多样化、真实场景下的验证需求。在更广泛的影响方面,作者认为他们 的方法将推动生成模型基础研究的进步,并可能在文本到图像或文本到视频生成等大型视觉生成模型中 显著降低训练和推理成本。同时,作者也提醒了该方法可能带来的数据偏见和滥用风险。
总的来说,这篇文章为自动回归模型在连续值域中的应用提供了新的视角,并展示了扩散损失作为 一种强大的工具,可以在不牺牲速度的情况下提高图像生成的质量。
文章的生成效果如下图所示:
02研究背景
这篇文章的研究背景集中在自动回归模型(autoregressive models)在图像生成领域的应用。自动 回归模型在自然语言处理(NLP)中是生成模型的标准解决方案,它们基于序列中先前词或标记 (token)来预测下一个词或标记。由于语言的离散性质,这些模型的输入和输出都是分类的、离散值空 间。
然而,当将自动回归模型推广到连续值域,尤其是图像生成时,研究主要集中在数据的离散化上。一种常用的策略是通过对图像进行向量量化(Vector Quantization, VQ),训练一个离散值的标记器, 这涉及到通过VQ获得的有限词汇表。然后,自动回归模型在离散值标记空间上操作,类似于它们在语言 处理中的对应物。
文章提出了一个关键问题:自动回归模型是否必须与向量量化表示结合使用?作者指出,自动回归 的本质——基于先前标记预测下一个标记——与值是离散还是连续无关。需要的是对每个标记的概率分 布进行建模,这可以通过损失函数来衡量,并用于绘制样本。虽然离散值表示可以通过分类分布方便地 建模,但概念上并非必需。如果提供了每个标记概率分布的替代模型,就可以在没有向量量化的情况下 接近自动回归模型。
基于这一观察,文章提出了一种通过扩散过程(diffusion procedure)对每个标记的概率分布进行 建模的方法,该过程在连续值域中操作。这种方法利用了扩散模型的原理来表示任意概率分布。具体来 说,该方法为每个标记自回归预测一个向量z,该向量作为去噪网络(例如一个小的多层感知机,MLP) 的条件。去噪扩散过程使我们能够表示输出x的底层分布p(x|z)。
文章还提出了一种新的损失函数——扩散损失(Diffusion Loss),用以替代传统的分类交叉熵损 失,从而消除了对离散值标记器的需求。通过广泛的实验,包括标准自动回归模型和广义掩码自动回归 (Masked Autoregressive, MAR)变体,证明了去除向量量化后,图像生成器在保持序列建模速度优势 的同时取得了强大的结果。
最后,文章希望这项工作能激发在其他连续值域和应用中使用自动回归生成的研究,这表明自动回 归模型及其扩展是超越语言建模的强大工具,并且它们不需要受到向量量化表示的限制。
03方法
这篇文章的方法部分详细介绍了一种新的图像生成框架,该框架基于自动回归模型,并采用了一种 创新的扩散损失(Diffusion Loss)来处理连续值标记。以下是对文章方法部分的详细描述:
重新思考离散值标记
文章首先重新审视了自动回归生成模型中离散值标记的作用。在传统的自动回归模型中,下一个标 记的预测是基于先前标记的,这些标记被表示为整数。
文章指出,尽管离散值标记易于实现,但它们并 不是自动回归模型所必需的。关键在于能够对每个标记的概率分布进行建模,而这可以通过损失函数和 采样器来实现。
扩散损失(Diffusion Loss)
文章提出了一种新的损失函数——扩散损失,用于在连续值空间中建模每个标记的概率分布。扩散 损失基于去噪扩散模型,这些模型已被证明能够有效地表示任意概率分布。
损失函数定义:扩散损失使用一个去噪网络(例如小的多层感知机,MLP)来预测噪声向量ε, 该网络接受噪声污染的向量xt作为输入,并以连续值向量z作为条件。损失函数的形式为L(z, x),计算预测噪声与实际噪声之间的平方误差。
损失函数具体可由下式表示:
采样器:在推理时,通过一个逆扩散过程从分布p(x|z)中抽取样本。这个过程涉及到从高斯分 布中采样噪声,并根据去噪网络的输出逐步去除噪声,最终生成符合分布的样本。温度采样:扩散损失还引入了温度参数τ,用于控制样本的多样性。通过调整温度,可以在生成 的样本中引入更多的随机性,类似于在离散值自动回归中使用温度参数的方式。
自动回归模型与扩散损失的结合
文章描述了如何将扩散损失应用于自动回归模型。在这种设置中,自动回归模型用于生成每个标记 的条件向量z,然后使用扩散损失来建模下一个标记的概率分布。
标记化:使用连续值标记器将图像转换为一系列连续值标记。Transformer架构:文章采用了Transformer架构来处理标记序列。Transformer通过自注意 力机制能够有效地捕捉长距离依赖关系。 条件向量生成:对于每个标记,自动回归模型生成一个条件向量zi,该向量基于先前的所有标 记。 概率分布建模:使用扩散损失来建模给定条件向量zi的下一个标记xi的概率分布。
统一自动回归和掩码生成模型
文章进一步提出了一种广义自动回归框架,该框架将标准自动回归模型和掩码生成模型统一起来。在这种框架下,模型可以预测多个输出标记,同时保持自动回归的性质。
掩码自动回归(MAR)模型:MAR模型预测一组标记,这些标记基于随机顺序排列的已知或已 预测的标记。这种模型可以看作是一种自动回归过程,其中一组标记被视为“下一个标记集 合”。
而三种自回归的掩码顺序如下图所示
双向注意力:MAR模型可以使用双向注意力机制,允许所有已知标记和未知标记之间的全面通 信,从而提高了生成质量。
下图展示了正常注意力与双向注意力:
实现细节
文章提供了实现这些概念的具体细节,包括扩散过程的参数设置、去噪MLP的架构、以及如何在不 同的自动回归和掩码自动回归模型中应用扩散损失。
扩散过程:文章描述了如何设置扩散过程的噪声计划,并在训练和推理时如何调整扩散步骤的 数量。 去噪MLP:详细介绍了去噪网络的结构,包括使用的层数、每层的宽度以及激活函数。 自动回归和掩码自动回归模型的实现:文章描述了如何使用Transformer架构来实现自动回归 模型,并如何通过添加掩码标记和位置嵌入来实现掩码自动回归模型。
04实验
文章的实验部分旨在验证所提出的扩散损失(Diffusion Loss)和自动回归模型在图像生成任务中的 有效性。以下是对实验部分的详细描述:
实验设置
实验在ImageNet数据集上进行,这是一个广泛用于图像识别和生成任务的基准数据集。作者选择了 256×256分辨率的图像来评估模型性能。评估指标包括Fréchet Inception Distance(FID)和Inception Score(IS),这两个指标分别衡量生成图像的质量与多样性。
模型配置
作者实现了不同变体的自动回归(AR)和掩码自动回归(MAR)模型,并探讨了使用扩散损失与传 统的交叉熵损失的对比。模型采用了不同大小的Transformer架构,以适应不同规模的实验。
扩散损失的属性
实验首先比较了使用扩散损失的连续值标记与使用交叉熵损失的离散值标记。作者使用了两种不同 的标记器:VQ-16(离散值)和KL-16(连续值),以确保公平比较。实验结果显示,扩散损失在所有变 体的AR和MAR模型中均优于交叉熵损失。
扩散损失与交叉熵损失的结果如下表所示:
扩散损失的灵活性
实验进一步探讨了扩散损失与不同类型标记器的兼容性,包括VQ标记器和非VQ标记器。结果表明, 即使在VQ标记器的情况下,将连续值潜在表示视为标记,扩散损失也能取得良好的性能。
扩散损失的灵活性如下表所示:
去噪MLP的效率
作者研究了在扩散损失中使用的去噪多层感知机(MLP)的大小对性能的影响。实验表明,即使是 较小的MLP也能产生有竞争力的结果,而增加MLP的宽度有助于提高生成质量。
采样步骤与温度的影响
实验还研究了在扩散过程中采样步骤的数量对生成质量的影响。结果表明,使用较少的采样步骤 (如100步)就足以获得强大的生成质量。此外,温度参数τ在控制样本多样性方面起着关键作用,类似 于在离散值自动回归中的作用。
自动回归模型的属性
实验比较了不同自动回归模型变体的性能,包括标准AR模型、随机顺序AR模型以及使用双向注意力 的模型。结果表明,随机顺序和双向注意力可以显著提高模型性能。
速度与准确性的权衡
作者探讨了在推理时预测多个标记的能力,这影响了模型的速度与准确性之间的权衡。实验结果表 明,MAR模型在速度和准确性之间提供了更好的权衡,特别是与基于扩散的模型(如Diffusion Transformer, DiT)相比。
与先前系统的比较
最后,作者将他们的方法与当前领先的图像生成系统进行了比较。结果表明,使用扩散损失的MAR 模型在关键指标上优于其他基于标记的方法,并且在某些情况下,与最先进的系统相当或更好。
结果分析
实验结果揭示了扩散损失在自动回归图像生成中的潜力,证明了该方法在提高生成图像质量和多样 性方面的有效性。此外,实验还表明,扩散损失可以灵活地应用于不同的标记器,并且能够在保持推理 速度的同时提供良好的性能。
05总结
这篇文章的创新点主要集中在以下几个方面:
1. 连续值空间的自动回归模型:文章提出了一种在连续值空间中应用自动回归模型的新方法,这 与传统的基于离散标记的方法不同。这种新方法允许模型直接在连续的数据上操作,而不需要 进行向量量化。
2. 扩散损失(Diffusion Loss):文章引入了一种新的损失函数——扩散损失,用于代替传统的 分类交叉熵损失。这种损失函数基于扩散模型的原理,能够更有效地建模连续值标记的概率分 布。
3. 无需离散化的数据表示:文章的方法消除了图像生成中常见的向量量化步骤,避免了离散化带 来的信息损失和重建质量不足的问题。
4.广义自动回归框架(Generalized Autoregressive Framework):文章提出了一个统一的 框架,将标准自动回归模型和掩码生成模型整合在一起。这个框架允许模型同时预测多个输出 标记,而仍然保持自动回归的特性。
5.灵活的标记器兼容性:扩散损失被设计为与各种类型的标记器兼容,包括VQ标记器和非VQ标 记器,这增加了方法的适用性和灵活性。
6.温度采样:文章在扩散损失中引入了温度参数τ,用于控制生成样本的多样性,类似于在语言模 型中使用温度采样来平衡探索和利用。
7.实验验证:通过在ImageNet数据集上的广泛实验,文章证明了所提出方法的有效性,包括与 现有最先进方法的比较,展示了在图像生成质量上的显著提升。
8.速度与准确性的权衡:文章探讨了在自动回归模型中预测多个标记的能力,展示了如何通过调 整模型来在生成速度和准确性之间取得更好的平衡。
9.系统级比较:文章提供了与先前领先系统的详细比较,证明了其方法在不同模型大小和训练设 置下的性能和扩展性。
10.局限性和广泛影响的讨论:文章不仅展示了方法的潜力,还坦诚地讨论了其局限性,如在特定 数据集上可能出现的图像伪影问题,以及对现有预训练标记器的依赖性。同时,文章还考虑了 其方法可能带来的广泛影响,包括在数据偏见和滥用方面的潜在风险。
这些创新点展示了文章在自动回归模型和图像生成领域的新思路和新方法,为未来的研究和应用提 供了新的方向。
声明
本文内容仅代表作者观点,或转载于其他网站,本站不以此文作为商业用途
如有涉及侵权,请联系本站进行删除
转载本站原创文章,请注明来源及作者。