大模型-鲁棒性总结-2024-7-28

CSPhD-winston-杨帆 2024-09-09 09:01:01 阅读 55

文章目录

1.大语言模型的鲁棒性概述2.自然噪声的鲁棒性2.1.真实标签任务的性能2.2.开放式任务的表现

3.评估分布外(OOD)任务的弹性3.1.OOD检测3.2.OOD泛化

4.对抗鲁棒性5.提示的分布假设6.幻觉检测7.遗忘鲁棒性技术评估8.数学推理任务中的鲁棒性评估9.代码的可靠性和鲁棒性10.RAG 的鲁棒性

1~3章内容主要来自:TrustLLM: Trustworthiness in Large Language Models

1.大语言模型的鲁棒性概述

大语言模型(LLMs)的鲁棒性(Robustness of Large Models)指的是大规模机器学习模型在面对输入数据的变化、噪声或攻击时,仍然能够保持其性能和稳定性的能力。这在实际应用中非常重要,因为真实世界的数据往往是嘈杂的、不可预测的,并且有时可能包含恶意攻击。以下是一些关键点来解释LLMs的鲁棒性:

对噪声的鲁棒性:LLMs需要能够处理数据中的噪声,如输入数据中的随机误差或异常值。例如,在图像分类任务中,图像可能会包含噪声或失真,LLMs应当能够正确分类这些图像。

对对抗攻击的鲁棒性:对抗攻击指的是通过对输入数据进行微小且有针对性的修改,使得模型输出错误结果。LLMs需要具备对抗这种攻击的能力,确保在面对恶意攻击时仍然能够做出正确的判断。

对分布外数据的鲁棒性:分布外数据(Out-of-Distribution, OOD)是指训练数据中未见过的、来自不同分布的数据。LLMs需要在面对这些未见过的数据时仍然能够保持一定的性能,而不会完全失效。

模型稳定性:模型在不同环境或不同硬件上的运行应该是一致的,不能因为外部条件的变化而导致性能显著下降。例如,在不同的服务器或GPU上运行LLMs时,结果应当是一致的。

通用性:鲁棒性好的LLMs通常具有较强的通用性,可以在多个任务或领域中应用,而不需要对每个新任务进行大量的重新训练。

为了提高LLMs的鲁棒性,通常会采用以下几种方法:

● 数据增强:通过在训练过程中对数据进行各种变换(如旋转、缩放、添加噪声等),增强模型对不同数据变化的适应能力。

● 对抗训练:在训练过程中引入对抗样本,通过优化模型使其能够抵抗这些对抗样本,从而提高模型的鲁棒性。

● 正则化:引入正则化技术(如L2正则化、Dropout等)来防止模型过拟合,从而提高其对噪声和未知数据的适应能力。

● 模型集成:使用多个模型的集成方法,通过综合多个模型的预测结果来提高整体的鲁棒性和稳定性。

评估LLMs的鲁棒性通常涉及以下几个方面:

● 自然噪声的鲁棒性:通过真实标签任务和开放式任务来评估模型在面对自然语言变化时的表现。

真实标签任务:如情感分析、重复问题检测和自然语言推理,这些任务有明确的评估标准和真实标签。

● 开放式任务:如文本生成任务,评估模型在没有标准答案的情况下的表现。

OOD检测:评估模型识别不理解数据的能力,避免生成错误信息。

OOD泛化:评估模型处理来自不同分布的新数据的能力,特别是在时间分布变化的背景下。

2.自然噪声的鲁棒性

自然噪音从两个角度分析:真实标签任务的性能和开放式任务的表现。

真实标签任务关注的是LLMs在处理具有明确正确答案的自然语言处理任务时的表现。这些任务通常有一套固定的评估标准和真实标签,例如情感分析、重复问题检测和自然语言推理等。真实标签任务通常有明确的输入和输出,模型的性能可以通过准确度、精确度、召回率等标准指标来衡量。评估真实标签任务的性能有助于了解模型在面对具有标准答案的任务时,对自然噪声的鲁棒性如何。

开放式任务的表现:开放式任务指的是那些没有固定答案或者答案不唯一的任务,例如文本生成任务,如编写旅行计划、故事创作等。开放式任务的表现的评估更为复杂,因为它们可能不依赖于固定的标签或标准答案,而是依赖于生成内容的相关性、创造性和一致性。开放式任务的鲁棒性评估可能需要考虑语义相似度、内容的多样性和合理性等因素。

真实标签任务与开放式任务的表现可以更全面地评估LLMs在不同类型的任务中对自然噪声的处理能力。

2.1.真实标签任务的性能

LLMs在处理具有明确正确答案的自然语言处理任务时的表现。这些任务通常有一套固定的评估标准和真实标签,例如情感分析、重复问题检测和自然语言推理等。

数据集与任务选择:

● 使用AdvGLUE数据集来评估LLMs在面对不同形式对抗性攻击时的敏感性。该数据集包含14种扰动策略,涵盖单词级、句子级和人为制造的扰动。

● 从AdvGLUE数据集中选择了SST-2、QQP、MNLI和QNLI四个任务进行评估,因为它们在数据集中具有代表性且避免了任务重复。

模型表现:

● PaLM 2在干扰前后保持了76.3%的准确率,展现出最高的鲁棒性。

● GPT-4和Llama2-70b紧随其后,表现出良好的鲁棒性。

● Llama2-7b虽然原始准确度不高,但受干扰的影响最小,准确率下降幅度仅为6.8%。

模型尺寸与鲁棒性:

● 恢复率(RS)的数据显示,更大的模型尺寸并不一定意味着更高的鲁棒性。例如,Llama2系列的恢复率高于Vicuna系列,即使后者的模型尺寸可能更大。

干扰的影响:

● 一些模型,如Koala,尽管鲁棒性较差,但在干扰后准确度有所增加,这可能是因为干扰导致模型从错误答案切换到正确答案。

结论:

● 模型的尺寸并不是决定其鲁棒性的唯一或显著因素。恢复能力和其他因素,如模型架构和训练过程,可能对鲁棒性有重要影响。

● 在真实标签任务中,LLMs的鲁棒性可以通过它们在面对自然噪声和对抗性攻击时的准确率和恢复能力来评估。

2.2.开放式任务的表现

LLMs在对话场景中常用于处理自然语言生成任务,这些任务可能没有标准答案,需要模型具有高度的创造性和适应性。

数据集:

● AdvInstruction数据集,它包含100个原始指令,并通过11种扰动方法生成了1200个变体。

● 原始指令覆盖了10个不同的主题,而扰动方法包括格式化错误、URL添加、错别字和替换等。

评估方法:

● 评估LLMs在开放式任务中的鲁棒性时,考虑到传统指标可能无法完全捕捉输出的质量,转而测量干扰前后输出之间的语义相似度。

● 使用OpenAI的text-embedding-ada-002模型获取输出的嵌入表示,并计算余弦相似度来评估语义相似度。

结果分析:

● 大多数LLMs在开放式任务中表现出良好的语义相似度,即使在受到干扰后也能保持较高的一致性。

● Llama2-70b在所有模型中展现出最佳的鲁棒性,平均语义相似度达到97.64%。

● 一些模型如Vicuna-7b和ERNIE显示出较差的鲁棒性,其中Vicuna-7b的平均语义相似度低于90%。

干扰影响:

● 单词替换和字符替换是对LLMs鲁棒性影响最大的干扰类型,这表明大多数LLMs必须对这些干扰进行鲁棒性微调。

● 语法错误对LLMs的影响相对较小,可能是因为模型在训练过程中已经接触到了大量包含语法错误的数据。

模型稳定性:

● 某些模型如Llama2-70b和ChatGPT在面对不同类型的干扰时能保持较高的稳定性,语义相似度下降通常不到3%。

● 另一方面,Vicuna-7b对任何干扰都不鲁棒,大多数干扰导致语义相似度下降超过10%。

结论:

● 开放式任务的鲁棒性评估揭示了不同LLMs在处理没有标准答案的任务时的表现差异。

● 模型的鲁棒性不仅仅取决于其尺寸,还受到其训练数据的多样性和质量的影响。

● 对于提高LLMs的鲁棒性,需要特别关注那些导致语义相似度显著下降的干扰类型,并可能需要针对性的优化和微调。

● 单词替换和字符替换是特别需要关注的干扰类型,因为它们对LLMs的语义相似度影响最大。

3.评估分布外(OOD)任务的弹性

这一章部分内容来自:Revisiting Out-of-distribution Robustness in NLP: Benchmark, Analysis, and LLMs Evaluations,后文用R-OOD表示

其余内容来自:TrustLLM: Trustworthiness in Large Language Models,后文用TrustLLM表示

背景与动机

LLMs就像学生一样,它们通过学习大量的数据来掌握语言的知识和使用方式。但是,就像学生可能遇到课本之外的新知识一样,LLMs也会遇到它们训练时没有见过的新概念或文本,这种情况被称为“分布外”(OOD,Out-of-Distribution)任务。现实世界中的数据往往不满足独立同分布(i.i.d.)的假设。这突显了评估LLMs在OOD情况下的鲁棒性的重要性。(来自R-OOD)

OOD任务的挑战

● 时间差距:模型可能需要理解在它们最后一次训练之后才出现的新事件或新技术。

● 句法异常:文本可能在语法上与模型学过的结构大相径庭。

● 语义差异:文本可能包含非标准或抽象的词汇,这些词汇的含义对模型来说可能不够明确。

● 合成或混合语言:一些特殊的语言形式,如克里奥尔语,可能对模型来说很难理解。

OOD的两个主要任务

OOD检测:这是指模型需要能够识别出它是否面临不理解的数据。如果模型能够做到这一点,它应该能够告诉用户它无法回答,而不是给出一个可能是错误的答案。OOD泛化:这是指模型在面对新的、未见过的数据时,仍然能够给出良好表现的能力。

3.1.OOD检测

OOD检测是识别模型是否面临可能不理解的数据的能力。这对于提高LLMs的可信度和避免生成虚假信息至关重要。其挑战包括识别最新内容(模型训练数据集中不存在的)和超出模型能力范围的输入,例如要求处理图像数据。

数据集:

使用ToolE数据集构建评估OOD检测的数据集,包含可能触发LLMs使用外部工具解决问题的用户查询,这些查询大多超出了LLM的能力。

评估方法:

使用RtA(拒绝回答)指标来评估LLMs的结果。一个具有出色OOD检测能力的LLM应该通过拒绝回答来响应数据集中的提示。

结果分析:

● 大多数模型都显示出一定的OOD检测能力,RtA率在40%以上。GPT-4在OOD检测方面表现最佳,其次是ChatGPT和Vicuna-33b。

● 不同系列的模型在OOD检测能力上存在差异,Llama2系列的总体性能并没有随着参数大小的变化而提高,而Vicuna系列的性能随着参数数量的增加而提高。

结论:

● OOD检测是LLMs在现实世界应用中的一个重要能力,它有助于模型在面对未知或新的输入时做出适当的反应。

● 模型的OOD检测能力与其尺寸并非总是正相关,表明除了模型大小外,其他因素如训练和架构也很重要。

●尽管一些模型在OOD检测上表现良好,但整体上LLMs在这一任务上的性能仍有提升空间。

3.2.OOD泛化

OOD泛化是指让一个已经在特定数据集上训练好的模型,能够处理来自不同数据分布的新数据。这在机器学习中非常重要,尤其是对于大型语言模型(LLMs),因为它们需要能够理解和生成与训练数据不同的文本。

OOD泛化面临的挑战包括时间差距(模型训练后出现的新事件或知识)、句法异常(文本结构与训练数据显著不同)、语义差异(使用非标准或抽象词汇)以及合成或混合语言的处理。

在自然语言处理(NLP)中,分布偏移已被广泛研究,涉及多个应用,如情感分析、问答、自然语言推理和命名实体识别等。这些都需要模型能够适应新的或不可预见的数据分布。

评估LLMs的OOD泛化能力存在挑战,主要是因为训练数据的透明度不足。一种方法是将2021年之后发布的数据集视为“分布外”,因为它们很可能不在大多数现有LLMs的训练语料库内。

TrustLLM中

数据集

使用了两个数据集,Flipkart和DDXPlus,来评估OOD泛化鲁棒性。Flipkart是产品评论数据集,DDXPlus是医疗诊断数据集。这些数据集提供了不同类型的分类任务。

评估方法

对14个LLM实例进行了零样本评估,使用F1得分作为评估指标,依赖于关键词匹配和人工注释来确保评估的准确性。

研究发现

所有模型都表现出一定程度的OOD泛化能力,但性能各异。GPT-4在多个任务中表现突出,而一些其他模型如Baichuan-13B和Koala-13B表现较差。小参数模型如Llama-13B在某些情况下优于大参数模型,这可能与过拟合有关。

结论

实现OOD泛化是LLMs面临的重大挑战。尽管一些模型在特定任务上表现出色,但与人类性能相比,LLMs在OOD泛化上仍有提升空间。研究者们需要继续探索如何提高模型的泛化能力,以便它们能够更好地适应和处理新的、未见过的数据。

R-OOD中

实验设置与方法

作者提出了一个构建基准测试的协议,包括选择ID(In-Distribution)和OOD数据集的原则,以及如何评估模型性能。

论文中介绍了BOSS(a Benchmark suite for Out-of-distribution robustneSS)基准测试套件,它包含五个主要的NLP任务,并针对每个任务提供了ID和OOD数据集。

实验包括对现有增强鲁棒性方法的评估,以及对不同规模的语言模型在各种任务上的表现进行分析。

评估方法

使用了标准化的评估流程,对模型在ID和OOD数据集上的性能进行了比较。

评估了数据驱动方法、模型和基于训练的方法、基于归纳先验的方法等多种增强鲁棒性的方法。

研究发现

发现在ID数据集上微调特定领域的小型模型通常优于大型语言模型。

大型语言模型在OOD数据集上表现出更好的泛化能力,尤其是在上下文学习方面。

不同的OOD数据集和不同的任务类型对模型性能有显著影响。

结论与未来工作

当前的方法在提高模型的OOD鲁棒性方面存在局限,需要更先进的技术来提升性能。

论文提出了BOSS基准测试套件,为未来的研究提供了一个更准确评估OOD鲁棒性的工具。

作者指出了研究的局限性,包括数据集可能已经被包含在预训练语料库中,以及任务选择的不全面性,并提出了未来工作的方向,包括开发新技术以增强微调模型的鲁棒性,以及创建独立的新下游数据集来满足对大型语言模型评估的需求。

4.对抗鲁棒性

内容来自:A Survey on Evaluation of Large Language Models

在LLMs的研究中,对抗鲁棒性主要研究的是,当这些模型遇到一些不怀好意的输入,比如故意设计来误导模型的信息时,它们是否还能稳定地工作。

通过创建特定的测试,检验模型面对这类问题的表现。例如,使用AdvGLUE、ANLI和DDXPlus等测试集来评估模型的稳定性。这些测试集设计有各种挑战,包括语法异常和非标准、抽象的词汇。

研究发现,即便是先进的模型也可能在敌意输入面前显得脆弱,这表明LLMs在对抗鲁棒性方面存在提升空间。

为了增强模型的对抗鲁棒性,已经提出了新的测试方法和数据集,如PromptBench和AdvGLUE++,这些工具有助于更全面地评估和提升模型的稳定性。

下面内容来自:JailbreakBench: An Open Robustness Benchmark for Jailbreaking Large Language Models

JailbreakBench是一个新提出的基准测试工具,专注于评估大型语言模型(LLMs)在面对“越狱”攻击时的安全性。这类攻击通过特定输入提示诱导模型生成不当内容。该工具的推出旨在克服现有评估方法的不足,如标准缺失和复现难题。

JailbreakBench的核心特性包括:

● 更新的越狱提示库:提供持续更新的资源以支持研究。

● 标准化评估框架:通过统一的威胁模型和评分系统,确保评估的一致性。

● 排行榜:公开展示不同模型在攻防两端的表现,增加透明度。

它还包含一个名为JBB-Behaviors的数据集,涵盖100种行为类别,与OpenAI政策相符,用以评估模型的拒绝率。

JailbreakBench使用Llama-3-70B作为基准分类器,提供了评估越狱攻击和防御方法的标准。

此外,该工具还提供了评估框架和基于Web的排行榜,以展示攻击和防御策略的效果。

5.提示的分布假设

内容来在:Examining the robustness of LLM evaluation to the distributional assumptions of benchmarks 探讨了LLMs在基准测试中的评估问题,特别是关注了基准测试中提示的分布假设对模型评估的影响。

背景与动机

传统的评估方法通常假设基准测试中的提示是独立同分布的样本,这种假设可能不准确,因为实际应用中提示的分布可能因用例而异。因此,研究者们提出了研究LLMs评估的鲁棒性,特别是针对基准测试中提示的分布假设。

研究问题

●基准测试中的提示权重是否对模型的评估结果有显著影响;

●模型在不同提示上的表现是否相关;

●以及这种相关性是否由提示的语义相似性所驱动。

实验设置与方法:

● 基准测试选择:选择了ANLI、HellaSwag、CommonsenseQA和CNN/Daily Mail四个不同的基准测试,覆盖了自然语言推理、常识推理和文本摘要等任务。

● 评估指标:对于二元结果的基准测试(如ANLI),使用平均准确率;对于连续结果的CNN/Daily Mail,使用ROUGE得分和余弦相似度。

● 模型选择:包括来自不同开发者的多种LLMs,如GPT、Llama和其他流行的模型。

● 方法:通过排列测试和线性回归分析来评估提示性能向量之间的相关性,以及语义相似性与模型表现相似性之间的关系。

主要发现:

● 模型在不同提示上的表现是显著相关的,尤其是ANLI和CommonsenseQA。

● 在某些情况下,改变提示的权重可以显著改变模型的相对排名。

● CNN/Daily Mail显示出语义相似性与模型表现相似性之间的显著关系,而其他基准测试则没有。

● 提示的语义相似性可能是模型表现相似性的因素之一,但更可能源于LLMs的共同失败点。

结论与未来工作:

● 基准测试中的分布假设对LLMs的评估有显著影响,且非均匀权重的使用可能会显著改变模型间的比较结果。

● 提出了一种新的方法来评估基准测试的鲁棒性和适当性,通过分析多个LLMs在主要基准测试上的表现。

● 未来的工作可能包括开发更全面的去偏见方法,识别其他可能解释模型表现相关性的因素,并利用这些信息来改进基准测试的设计。

6.幻觉检测

以下内容来自:Hallucination Detection: Robustly Discerning Reliable Answers in Large Language Models

背景与动机

LLMs生成的文本中存在“幻觉”问题,即生成与输入源不一致或不忠实的内容,这可能导致严重后果。特别是在需要事实准确性的领域,如医学和金融,幻觉的存在严重阻碍了LLMs的应用。因此,检测和减少LLMs中的幻觉是学术界和工业界面临的重要挑战。

研究问题

如何在LLMs生成的答案中有效地检测和区分幻觉内容?研究旨在开发一种稳健的机制,以识别和评估LLMs生成的答案的可靠性。

实验设置与方法

为了解决这一问题,作者构建了一个双语问答对话数据集RelQA,并提出了一个名为RelD的稳健鉴别器。RelD在RelQA数据集上接受训练,该数据集包含由LLMs生成的答案和一套全面的评估指标。实验使用了多种自动和人工参与的评估方法,包括准确率(ACC)、ROC曲线分析和AUC值。此外,还进行了消融研究来评估不同组件的有效性,并探索了最优的类别数量和指标权重。

主要发现

实验结果表明,RelD能够有效地检测LLMs生成答案中的幻觉,无论是在分布内(IID)还是分布外(OOD)数据集上。RelD在自动和人工参与评估中均展现出高相关性和稳健性。此外,通过探索性分析,研究揭示了RelD在不同类别中的预测特征和可能的不确定性。

结论与未来工作

论文得出结论,RelD是一个有效的工具,能够检测LLMs生成的可靠答案,并为减轻幻觉提供了有希望的方向。未来的工作可能会集中在进一步提高RelD的性能,以及探索更深层次的语义关系和上下文理解,以提高幻觉检测的准确性和鲁棒性。

7.遗忘鲁棒性技术评估

内容来自:Eight Methods to Evaluate Robust Unlearning in LLMs,探讨和评估LLMs中的“遗忘”技术,即如何从这些模型中移除不需要或有害的知识。

背景与目的

LLMs可能会记住预训练数据中的有害信息或文本,这可能引发隐私和公平使用的问题。模型可能在某些情况下展现出不期望的行为。

评估LLMs的遗忘技术,确保这些模型在遗忘特定知识后,依然能够在其他任务上保持竞争力,并且遗忘的知识不容易被重新提取。

WHP模型

Eldan和Russinovich提出的WHP(Who’s Harry Potter)模型通过微调来遗忘《哈利波特》系列的知识,使用“熟悉度”指标来评估模型是否成功遗忘了与《哈利波特》相关的知识。

评估方法

● 使用不同语言的提示来测试遗忘是否具有跨语言的泛化能力。

● 使用越狱提示测试是否能重新提取被遗忘的知识。

● 在上下文中重新学习,以查看是否能通过提供一些背景信息来恢复被遗忘的知识。

● 通过微调测试遗忘的鲁棒性。

● 使用下游任务评估模型在特定领域的遗忘效果。

● 探测模型的潜在知识。

● 将WHP模型与简单提示基线进行比较。

● 测试WHP模型在类似领域的副作用。

研究发现

● WHP模型在使用“熟悉度”指标时显示出良好的遗忘泛化能力。

● 研究者能够使用对抗性方法提取出高于基线的知识量。

● WHP模型在下游问答任务上的表现与原始模型相当。

● WHP模型在表示潜在知识方面与原始模型相似。

● WHP模型在相关领域有一些副作用。

结论

全面评估LLM遗忘技术的重要性,并指出临时指标可能对整体有效性有误导性。建议未来的工作应该强调开发能够抵抗对抗性评估的鲁棒技术。

8.数学推理任务中的鲁棒性评估

内容来自:GSM-PLUS: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers

背景与动机

尽管大型语言模型在数学推理任务上表现出色,但人们质疑这些模型是否真的理解数学知识,还是仅仅依赖于表面模式或数据泄露来解决问题。

当数学问题的表述稍作变化时,这些模型可能会给出错误的答案。

GSM-PLUS数据集

● 数据集构建:研究者扩展了GSM8K数据集,创建了GSM-PLUS,它包含针对数学问题的多种扰动类型,以测试模型的鲁棒性。

● 扰动类型:包括数值变化、算术变化、问题理解、分散项插入和批判性思维等。

实验设置与评估

● 模型选择:评估了包括专有模型(如GPT-4)和开源模型在内的25种不同规模的LLMs。

● 评估指标:使用性能下降率(PDR)和准确解决对的比例(ASP)来衡量模型在面对扰动时的性能变化。

实验结果

● 性能下降:在GSM-PLUS数据集上,所有模型的性能都比在GSM8K上有所下降,表明在面对问题变化时,模型的鲁棒性不足。

● 模型比较:GPT-4显示出最高的鲁棒性,而某些模型如CodeLlama在面对特定扰动时性能下降显著。

提示技术

● 现有方法:研究了包括链式思维提示(COT)、思维程序提示(POT)和最少至最多提示(LTM)等方法。

● 组合提示:提出了一种新的组合提示方法(COMP),通过迭代生成和验证来提高模型的鲁棒性。

结论与未来工作

● 研究贡献:GSM-PLUS为评估LLMs在数学推理任务上的鲁棒性提供了一个系统化的基准。

● 未来方向:需要进一步研究如何提高模型在更广泛数学技能上的表现和鲁棒性。

局限性

● 教育水平:研究主要集中在小学数学问题上,其他教育水平的数学推理鲁棒性评估留作未来工作。

● 解决方案链准确性:没有调查解决方案链的准确性,因为缺乏可靠的度量标准。

● 失败原因:GSM-PLUS没有深入探讨模型解决问题失败背后的原因。

9.代码的可靠性和鲁棒性

下面内容来自:

Can LLM Replace Stack Overflow? A Study on Robustness and Reliability of Large Language Model Code Generation,后文用【RobustAPI】指代

Exploring the Robustness of Large Language Models for Solving Programming Problems,后文用【Robust Program】指代

背景与动机

随着大型语言模型在编程领域的应用日益增多,它们生成的代码的可靠性和鲁棒性成为了关键问题。

● RobustAPI :尽管LLMs能够生成语法正确的代码,但它们在实际软件开发中可能不够可靠,尤其是在 API 使用方面。针对API使用方面的代码可靠性和鲁棒性问题,特别是在Stack Overflow上的Java API问题。

● Robust Program:LLMs在编程问题解决方面显示出高度能力,但其在实际软件开发中的鲁棒性尚未明确。

研究问题

● RobustAPI:评估LLMs生成的代码在API使用上的可靠性和鲁棒性。

● Robust Program:LLMs是否真正理解给定的编程问题并生成程序,还是仅仅基于表面线索从训练数据中检索最相关的源代码?

实验设置与方法

RobustAPI及基准测试:

●使用静态分析方法,特别是基于抽象语法树(AST)的技术,来检测代码中的 API 误用。

●论文中对几个主流的 LLMs(包括 GPT-3.5、GPT-4、Llama-2 和 Vicuna-1.5)进行了评估,考虑了零样本、单不相关样本和单相关样本三种实验设置。

●作者创建了 RobustAPI,一个包含 1208 个 Stack Overflow 上的问题和相关 Java API 的数据集,用以评估 LLMs 生成的代码的可靠性和鲁棒性。

Robust Program:

● 实验1:格式化问题描述,考察LLMs对问题描述表面修改的敏感度。

● 实验2:修改问题描述,包括表面和语义修改,评估对代码生成性能的影响。

评估方法:

RobustAPI:

使用静态分析方法,特别是基于抽象语法树(AST)的技术,来检测代码中的 API 误用。

主要发现

RobustAPI:

● 大型语言模型普遍存在 API 误用问题,即使是最新的商业模型。

● 不相关样本的添加并没有显著降低 API 误用率,反而可能增加了误用率。

● 正确使用 API 的示例可以显著降低某些模型的 API 误用率。

● 提高温度或用 API 规则替换单样本示例对 API 误用率没有显著影响。

Robust Program:

● CodeGen和Codex对问题描述的表面修改敏感,影响代码生成性能。

● Codex依赖于变量名,随机化变量名降低了解决率。

● SOTA模型如InstructGPT和ChatGPT显示出更高鲁棒性。

结论与未来工作

● RobustAPI:LLMs在现实世界软件开发中的可靠性和鲁棒性有待提高,提出了改进方法和评估重要性。

● Robust Program:LLMs的代码生成性能可能受到问题描述微小修改的显著影响,但随着模型发展,它们正在获得鲁棒性。

10.RAG 的鲁棒性

以下内容来自:Retrieval-Augmented Generation for Large Language Models: A Survey

RAG(Retrieval-Augmented Generation,检索增强型生成)技术通过结合大型语言模型(LLMs)的内在知识与外部数据库的海量动态知识库,增强了生成的准确性和可信度,尤其适用于知识密集型任务。然而,RAG在处理检索到的信息时,可能会遇到鲁棒性问题,即如何在面对噪声或矛盾信息时保持输出质量。

混合/混合检索(Mix/hybrid Retrieval):

稀疏和密集嵌入方法各自捕捉不同的相关性特征,并通过利用互补的相关性信息相互受益。例如,稀疏检索模型可以用来为训练密集检索模型提供初始搜索结果。此外,预训练语言模型(PLMs)可以用来学习术语权重,以增强稀疏检索。这表明稀疏检索模型可以增强密集检索模型的零样本检索能力,并帮助处理包含稀有实体的查询,从而提高鲁棒性。

迭代检索(Iterative Retrieval):

迭代检索是通过对初始查询和迄今为止生成的文本来反复搜索知识库,为LLMs提供更全面的知识基础。这种方法通过多次检索迭代提供额外的上下文引用,增强了后续答案生成的鲁棒性。然而,它可能受到语义不连续性和无关信息累积的影响。

所需能力(Required Abilities):

RAG评估还包括四种能力,这些能力表明了它的适应性和效率:抗噪声能力、负面拒绝、信息整合和反事实鲁棒性。这些能力对于模型在面对各种挑战和复杂场景时的性能至关重要,影响着质量评分。

抗噪声能力(Noise Robustness):评估模型管理与问题相关但缺乏实质信息的噪声文档的能力。

反事实鲁棒性(Counterfactual Robustness):测试模型识别并忽略文档中已知不准确性的能力,即使在被告知潜在的错误信息时也是如此。

鲁棒性评估(Robustness Evaluation):

NoMIRACL研究提出了一种鲁棒的多语言检索增强生成方法,强调了在不确定情况下的鲁棒性,即知道何时不知道(Knowing when you don’t know)。

评估工具和基准测试:

为了促进RAG模型的评估,已经提出了一系列基准测试和工具。这些工具不仅提供了衡量RAG模型性能的定量指标,还增强了对模型在不同评估方面能力的理解。例如,RGB、RECALL和CRUD等著名基准测试专注于评估RAG模型的基本能力。同时,像RAGAS、ARES和TruLens这样的先进自动化工具利用LLMs来裁定质量评分。

RAG鲁棒性的挑战:

当检索过程中出现噪声或矛盾信息时,可能会对RAG的输出质量产生不利影响。这种情况被形象地称为“错误的信息可能比没有信息更糟糕”。提高RAG对这类对抗性或反事实输入的抵抗力正在获得研究动力,并已成为关键的性能指标。

RAG生态系统的发展:

RAG在增强LLMs的能力方面取得了显著进步,通过整合来自语言模型的参数化知识与来自外部知识库的大量非参数化数据。随着RAG应用范围的扩大,有必要完善评估方法以跟上其发展的步伐。确保准确和有代表性的性能评估对于充分捕捉RAG对AI研究和开发社区的贡献至关重要。



声明

本文内容仅代表作者观点,或转载于其他网站,本站不以此文作为商业用途
如有涉及侵权,请联系本站进行删除
转载本站原创文章,请注明来源及作者。