大模型日报|11 篇必读的大模型论文
学术头条 2024-08-20 15:01:02 阅读 76
大家好,今日必读的大模型论文来啦!
1.苹果团队推出兼容 LLM 演进的模型更新策略 MUSCLE
为提高模型性能,大语言模型(LLM)经常会因数据或架构变化而更新。在更新模型时,开发人员通常侧重于提高整体性能指标,而不太重视与先前模型版本的兼容性。然而,用户通常会对与之交互的特定机器学习模型的功能和能力建立一个心智模型。每次更新时,他们都必须调整自己的心智模型——这是一项耗费精力的任务,可能会导致用户不满。
在实践中,微调下游任务适配器依赖于预训练的 LLM 基础模型。当这些基础模型更新时,这些面向用户的下游任务模型就会出现实例退化(Instance regression)或负向翻转(Negative flips)的情况。即使下游任务训练程序保持不变,这种情况也会发生。
在这项工作中,来自苹果公司、加州大学圣地亚哥分校的研究团队希望通过两种方式为用户提供无缝的模型更新。首先,他们为与先前模型版本的兼容性概念提供了评估指标,特别适用于生成任务,但也适用于判别任务。他们观察了不同任务和模型更新上不同模型版本之间的退化和不一致性。其次,他们提出了一种训练策略,从而尽量减少模型更新中不一致的情况,其中包括训练一个兼容性模型,该模型可以增强任务微调语言模型。从 Llama 1 到 Llama 2,他们减少了多达 40% 的负向翻转——即以前正确的实例现在被错误地预测出来。
论文链接:
https://arxiv.org/abs/2407.09435
2.华为新研究:用于无限语境 LLM 的类人情景记忆
大语言模型(LLMs)已显示出非凡的能力,但在处理广泛的语境方面仍有困难,这限制了它们在长序列中保持连贯性和准确性的能力。与此相反,人类大脑擅长组织和检索跨越巨大时间尺度的情景体验(episodic experience),这种经验伴随人的一生。
在这项工作中,来自华为、伦敦大学学院提出了一种将人类情景记忆和事件认知的关键方面整合到 LLM 中的新方法——EM-LLM,使 LLM 能够有效处理几乎无限的语境,同时保持计算效率。EM-LLM 采用贝叶斯惊喜和图论边界细化相结合的在线方式,将 token 序列组织成连贯的情景事件。需要时,通过两阶段记忆过程检索这些事件,将基于相似性的检索和时间上连续的检索结合起来,以高效和类似人类的方式获取相关信息。
在 LongBench 数据集上的实验证明了 EM-LLM 的优秀性能,它在各种任务中的总体相对改进率为 4.3%,超过了 SOTA InfLLM 模型,其中在 PassageRetrieval 任务中的改进率为 33%。此外,分析表明,EM-LLM 的事件分割与人类感知的事件之间存在很强的相关性。这项工作不仅提高了 LLM 处理扩展语境的能力,还为探索人类记忆机制提供了一个计算框架,为人工智能和认知科学的跨学科研究开辟了新途径。
论文链接:
https://arxiv.org/abs/2407.09450
3.Google DeepMind 推出分层视觉-语言-动作导航策略 Mobility VLA
导航研究的一个难以实现的目标是构建一个能够理解包括自然语言和图像在内的多模态指令并执行有用导航的智能体。为了实现这一目标,Google DeepMind 研究了一类广泛有用的导航任务,名为 Multimodal Instruction Navigation with demonstration Tours(MINT),其中环境先验知识通过先前录制的示范视频提供。
视觉语言模型(VLM)的最新进展显示了实现这一目标的有希望的路径,因为它展示了在感知和推理多模态输入方面的能力。然而,VLM 通常被训练来预测文本输出,在导航中如何最好地利用它们仍然是一个开放的研究问题。
为了实现 MINT,研究团队提出了 Mobility VLA,一种分层的视觉-语言-动作(VLA)导航策略,它结合了长上下文 VLM 的环境理解和常识推理能力以及基于拓扑图的稳健低级导航策略。高级策略由一个长上下文 VLM 组成,它将示范视频和多模态用户指令作为输入,以在视频中找到目标帧。接下来,低级策略使用目标帧和离线构建的拓扑图在每个时间步生成机器人动作。
研究团队在一个 836 平方米的真实世界环境中评估了 Mobility VLA,并展示了 Mobility VLA 在以前未解决的多模态指令上的端到端高成功率。
论文链接:
https://arxiv.org/abs/2407.07775v1
4.人民大学、西电推出大语言模型综合库 LLMBox
为简化大语言模型(LLM)的开发、使用和评估,中国人民大学和西安电子科技大学的研究团队提出了一个综合且统一的库——LLMBox。
LLMBox 具有三个主要优点:(1)统一的数据接口,支持各种训练策略的灵活实现;(2)覆盖广泛任务、数据集和模型的综合评估;(3)更实用的考虑,特别是在用户友好性和效率方面。借助 LLMBox,用户可以轻松复现现有方法、训练新模型,并进行全面的性能比较。
为了严格测试 LLMBox,研究团队在各种评估设置中进行了广泛的实验,实验结果表明,LLMBox 在支持与 LLM 相关的各种实现方面具有高效性和有效性。
论文链接:
https://arxiv.org/abs/2407.05563
GitHub 地址:
https://github.com/RUCAIBox/LLMBox
5.Meta 提出 MobileLLM:优化用于设备上的亚十亿参数语言模型
Meta 团队针对移动设备上对高效大语言模型(LLM)的日益增长需求进行了研究,这一需求是由不断增加的云成本和延迟问题所驱动的。研究团队专注于设计参数少于十亿的高质量 LLM,这是移动部署的实际选择。
与强调数据和参数数量在决定模型质量中的关键作用的普遍看法相反,这项研究强调了模型架构在少于十亿规模 LLM 中的重要性。利用深度而精细的架构,结合嵌入共享和分组查询注意力机制,他们建立了一个强大的基线网络,称为 MobileLLM,其在 125M/350M 参数的前沿模型上分别获得了 2.7%/4.3% 的准确性提升。此外,他们提出了一种即时的块级权重共享方法,在不增加模型规模且仅有轻微延迟的情况下,进一步提高了模型准确性。这些模型被称为 MobileLLM-LS,相较于 MobileLLM 125M/350M,分别进一步提升了 0.7%/0.8% 的准确性。
此外,MobileLLM 模型家族在聊天基准测试中相比以往的亚十亿参数模型显示了显著的改进,并在 API 调用任务中展示了接近 LLaMA-v2 7B 的正确性,凸显了小型模型在常见设备使用场景中的能力。
论文链接:
https://arxiv.org/abs/2402.14905
GitHub 地址:
https://github.com/facebookresearch/MobileLLM
6.Google DeepMind 提出百万混合专家模型
标准 Transformer 架构中的前馈(FFW)层随着隐藏层宽度的增加会导致计算成本和激活内存线性增加。稀疏混合专家(MoE)架构通过将模型大小与计算成本分离,已成为解决这一问题的可行方法。最近发现的细粒度 MoE 缩放定律表明,更高的粒度可以带来更好的性能。然而,由于计算和优化的挑战,现有的 MoE 模型仅限于少量专家。
为此,Google DeepMind 研究团队推出了 PEER(参数高效专家检索),这是一种利用 product key 技术从大量小专家(超过一百万)中进行稀疏检索的新型层设计。在语言建模任务上的实验表明,PEER 层在性能-计算权衡方面优于密集的 FFW 和粗粒度 MoE。通过高效利用大量专家,PEER 解锁了在保持计算效率的同时进一步扩展 Transformer 模型的潜力。
论文链接:
https://arxiv.org/abs/2407.04153
7.Meta 新研究:将 System 2 蒸馏到 System 1 中
大语言模型(LLM)在推理过程中可以花费额外的计算资源来生成中间思路,从而帮助产生更好的最终响应。自从思维链(Chain-of-Thought)提出以来,已经出现了许多此类的 System 2 技术,例如重新表述和响应(Rephrase and Respond)、System 2 注意力(System 2 Attention)和分支-解决-合并(Branch-Solve-Merge)。
在这项工作中,Meta FAIR 研究了自监督方法,将 System 2 技术中的高质量输出“编译”(蒸馏)回 LLM 生成的内容中,而无需中间推理令牌序列,因为这些推理已被蒸馏到 System 1 中。
研究团队展示了几种这样的技术可以成功蒸馏,结果相比原始 System 1 性能有所改善,同时推理成本比 System 2 更低。团队认为,System 2 蒸馏将成为未来持续学习 AI 系统的重要特性,使它们能够将 System 2 能力集中在尚未能很好处理的推理任务上。
论文链接:
https://arxiv.org/abs/2407.06023
8.超越 Transformer,斯坦福团队提出 TTT 架构
自注意力机制在长上下文中表现出色,但具有二次复杂度。现有的 RNN 层具有线性复杂度,但它们在长上下文中的表现受到其隐藏状态表达能力的限制。
斯坦福大学及其研究团队提出了一类新的序列建模层,具有线性复杂度和表现力丰富的隐藏状态。关键思想是将隐藏状态本身变成一个机器学习模型,并将更新规则视为自监督学习的一步。由于隐藏状态甚至在测试序列上进行训练时也会更新,他们称这些层为 Test-Time Training(TTT)层。
研究团队考虑了两种实现:TTT-Linear 和 TTT-MLP,分别是其隐藏状态是线性模型和双层 MLP。他们在 125M 到 1.3B 参数的规模上评估了这些实例,与 Transformer 和 Mamba 进行比较。TTT-Linear 和 TTT-MLP 均匹配或超越了基准。
类似于 Transformer,它们可以通过基于更多的 token 来持续降低困惑度,而 Mamba 在 16k 上下文后无法再降低困惑度。通过初步的系统优化,TTT-Linear 在 8k 上下文时已经比 Transformer 更快,并且在实际时间上匹配 Mamba。TTT-MLP 在内存 I/O 方面仍面临挑战,但在长上下文中显示出更大的潜力,指出了未来研究的有希望方向。
论文链接:
https://arxiv.org/abs/2407.04620
9.Diffusion Forcing:当下一个 token 预测遇见全序列扩散
MIT 研究团队推出了一种新的训练范式——Diffusion Forcing(扩散驱动),其中扩散模型被训练来对一组具有独立每个 token 噪声水平的 token 进行去噪。研究团队将 Diffusion Forcing 应用于序列生成建模,通过训练因果下一个 token 预测模型来生成一个或多个未来的 token,而无需完全扩散过去的 token。
研究团队的方法显示出结合下一个 token 预测模型的优势,如可变长度生成,以及全序列扩散模型的优势,如引导采样到理想轨迹的能力。
研究团队的方法提供了一系列附加功能,如(1)连续 token 序列(如视频)的滚动输出,其长度超过训练范围,而基线方法会发散;(2)新的采样和引导方案,独特地受益于扩散强制的可变范围和因果架构,在决策和规划任务中带来了显著的性能提升。除了实证上的成功外,该方法还被证明可以优化从真实联合分布中抽取的所有子序列的似然性的变分下界。
论文链接:
https://arxiv.org/abs/2407.01392
项目地址:
https://boyuan.space/diffusion-forcing/
10.揭示无编码器的视觉语言模型
现有的视觉语言模型(VLM)大多依赖视觉编码器提取视觉特征,随后由大语言模型(LLM)处理视觉语言任务。然而,视觉编码器在抽象视觉表示时引入了强烈的归纳偏差,例如分辨率、纵横比和语义先验,这可能会阻碍 VLM 的灵活性和效率。训练能够接受无缝视觉和语言输入的纯 VLM (即无视觉编码器)依然具有挑战性且鲜有探索。实验证据表明,直接无编码器训练会导致收敛速度慢和性能差距大。
在这项工作中,大连理工大学及其研究团队弥合了基于编码器和无编码器模型之间的差距,并提出了一种简单而有效的训练方案来实现纯 VLM。具体而言,研究团队通过深入实验揭示了高效训练无编码器 VLM 的关键方面:(1)在一个统一的解码器内桥接视觉语言表示;(2)通过额外的监督增强视觉识别能力。
利用这些策略,团队推出了 EVE,一种可以高效训练和推理的无编码器视觉语言模型。值得注意的是,仅利用 3500 万公开数据,EVE 在多个视觉语言基准测试中媲美具有类似容量的基于编码器的 VLM。它超越了 Fuyu-8B 这一使用神秘训练程序和未公开训练数据的对手。研究团队相信,EVE 为跨模态开发纯解码器架构提供了一条透明高效的路径。
论文链接:
https://arxiv.org/abs/2406.11832
GitHub 地址:
https://github.com/baaivision/EVE
11.揭示不同 Transformer 层的工作机制
尽管大语言模型(LLM)几乎普遍采用 Transformer,但后者的内部工作机制仍然不为人所理解。在这项工作中,来自 Sakana AI 和 Emergence AI 的研究团队旨在更好地理解在预训练的 Transformer 层中移除或重新组织信息的影响。这种理解既可以更好地使用现有模型,也可以在架构上进行改进,创造出新的变体。
研究团队对冻结的模型进行了系列实证研究,显示出预训练的 Transformer 的低层和最终层与中间层有所不同,而中间层却有着惊人的一致性。进一步表明,一些类型的问题对跳过层、以不同于训练顺序的方式运行层或并行运行层具有鲁棒性。
研究团队的观察表明,即使是冻结的预训练模型,也可以通过跳过层或并行运行层来权衡准确性和延迟。
论文链接:
https://arxiv.org/abs/2407.09298
声明
本文内容仅代表作者观点,或转载于其他网站,本站不以此文作为商业用途
如有涉及侵权,请联系本站进行删除
转载本站原创文章,请注明来源及作者。