关于AI模型能力的评测数据集

supermy 2024-07-28 15:01:02 阅读 66

AI模型数据

评测AI模型数据集MMLUHellaSwag数据集ARCMBPP数据集GSM8KMT-Bench

评测AI模型数据集

评测AI模型有多个数据集,搞清楚每个数据集的评测目标,有助于实施AI模型实现目标。

MMLU

作为衡量大型语言模型(LLMs)能力的重要评估工具,MMLU(Measuring massive multitask language understanding)在自然语言处理领域的研究和应用中具有重要意义。本文将通过Gemini模型中MMLU的测评水平,探讨其设计理念、构成和应用,以及在推动LLMs发展中的作用。

Gemini模型与MMLU评估

Gemini 1.0是Google推出的一款具有原生多模态能力的大模型,分为三个版本:Gemini Ultra、Gemini Pro和Gemini Nano。在MMLU测试框架中,Gemini Ultra取得了90.0%的高分,超过了人类专家的表现。这一成绩充分展示了Gemini在知识掌握、推理和问题解决方面的强大能力。

MMLU的设计理念与构成

MMLU(⼤规模多任务语⾔理解)是⼀个结合了数学、物理、历史、法律、医学和伦理学等57个科⽬的测试集。其核心设计理念是全面评估LLMs在知识掌握、推理和问题解决方面的能力,数据特点是涵盖知识⾯在科⽬和难度上⽐较广泛。MMLU采用选择题的形式进行评估,让模型从四个选项中选择最佳答案。这种评估方法简单直观,便于比较不同模型的性能。

这些任务既有基本的语言理解问题,也有需要深入推理和问题解决能力的高级任务。相⽐于其他测试集,MMLU的⼴泛性和深度更强,它通过⼤量和多样的任务来测试模型的理解⾃然语⾔⽅⾯能⼒,特别是在复杂和多变的真实世界场景中的表现。这使得MMLU成为⼀个极具挑战性的评测框架,可以全⾯地评估和推动⼤型语⾔模型的发展。

因此 ,在MMLU测试中超越⼈类专家,也可以理解为在MMLU的测试框架下,Gemini在“各种复杂和现实世界场景中的表现”超越了⼈类专家。

MMLU的应用与影响

MMLU已成为衡量LLMs性能的重要基准。许多知名的大型语言模型,如GPT-3、PaLM和LaMDA等,都在MMLU上进行了测试。通过对比这些模型在MMLU上的表现,研究人员可以了解它们在各个领域和任务中的优缺点,从而为未来的研究和应用提供有价值的参考。

例如,Google的Gemini模型在MMLU测试中的出色表现,为自然语言处理领域带来了新的可能性。

MMLU在推动LLMs发展中的作用

MMLU作为一个全面的评估框架,为研究人员提供了一个衡量LLMs性能的重要标准。通过对各种模型在MMLU上的表现进行比较,研究者可以发现模型的不足之处,从而指导未来的研究和优化。此外,MMLU还可以帮助研究人员了解LLMs在不同领域和任务中的泛化能力,为实际应用提供有价值的指导。

不过,MMLU作为2020年发布的多功能基准,越来越多的大模型能在测评中取得高分。

需要说明的是,MMLU 这个⽂章及数据集是在 2020 年发表的,因此相应的 MMLU 评分⽐较低,最优 的 GPT-3 上也只有个 43.9%,⽽当前 2023 年 9 ⽉,已经有⽐较多的模型能达到 70% 以上的得分。

中⽂版MMLU

中文版MMLU的任务数量⼀共67个,问题收集主要来源于教育系统的内部数据或模拟考试之类的数据(防⽌被爬下来做训练)并由4名⾄少本科学历的⼈来⼿动注释。和MMLU⼀样,是做成四个选项的单选题,评估⽅法⾃然是Acc。

评估结果也不意外,即使是ChatGPT的准确率也只有55%且存在偏科的情况。

总结

MMLU作为一个关键的评估基准,在全面了解大型语言模型性能方面具有重要意义。MMLU不仅为研究人员提供了一个衡量LLMs性能的重要标准,还为未来的研究和应用奠定了基础。随着LLMs技术的不断发展,MMLU将继续在推动这一领域进步中发挥重要作用。

HellaSwag数据集

HellaSwag 数据集是由斯坦福大学的研究人员开发的,用于评估通用语言理解的基准数据集。它的名称“HellaSwag”代表“当上下文知识远超常识时,会发生什么”的俚语表达。

该数据集包含10万个问题-回答对,其中每个回答都是一个需要对上下文进行深入理解的反常或不寻常的答案。这使得 HellaSwag 成为评估模型的上下文感知能力和常识推理能力的强有力工具。

与其他数据集不同,HellaSwag 的问题和答案都是由众包工人创造的,而不是来自现有的文本数据。这种方法的优点在于它能够创造出具有挑战性的数据,但缺点在于可能会出现人工偏差。

HellaSwag 数据集的独特之处在于它需要模型根据上下文进行复杂的推理,而不仅仅是简单地匹配单词或短语。因此,它能够提供对模型的更全面的评估,使得 HellaSwag 成为测试通用语言理解能力的重要数据集之一。

在该数据集上,在一次性训练中,GPT-3 的准确率为78.1%,在 few-shot 训练中为79.3%,优于经过微调的1.5B参数语言模型的75.4%准确率,但仍比经过微调的多任务模型 ALUM 的85.6%总体 SOTA 低得多。

ARC

ARC 取自中学生考试中的科学问题,并进一步分为ARC-Challenge 于 ARC-Easy 两个子集,共包含大约8000个问题,此外,该数据集中提供与该任务相关的包含14M科学事实的语料库用来回答这些问题。

在常识推理任务 PiQA、HellaSwag 和 Winogrande 中,每个任务都需要一定程度的常识知识,超出语言的统计模式才能解决。

MBPP数据集

包含974个编程任务,人给出所需程序的描述,引导模型生成正确的代码。

MBPP数据集示例

在HumanEval上评估根据docstrings生成代码的能力,MBPP根据文字描述生成代码。

code Llama 34b模型在HumanEval达到53.7%,MBPP达到56.2%,接近Chatgpt的水平。

GSM8K

由 8.5K 高质量的小学数学问题组成,这些问题都是由人类写手创造的。我们将这些问题分为 7.5K 训练问题和 1K 测试问题。这些问题需要 2 到 8 个步骤来解决,解决方法主要是使用基本的算术运算(+ - / *)进行一连串的基本计算,以得出最终答案。一个聪明的中学生应该能够解决每个问题。

MT-Bench

是一个经过精心设计的基准测试,包含80个高质量的多轮问题。

这些问题可以评估模型在多轮对话中的对话流程和指令遵循能力,其中包含了常见的使用情景,以及富有挑战性的指令。

通过对过去2个月运营聊天机器人竞技场以及对收集的一部分用户数据的分析,团队确定了8个主要的类别:写作、角色扮演、提取、推理、数学、编程、知识I(科学技术工程数学)和知识II(人文社科)。

其中,每个类别有10个多轮问题,总共160个问题。



声明

本文内容仅代表作者观点,或转载于其他网站,本站不以此文作为商业用途
如有涉及侵权,请联系本站进行删除
转载本站原创文章,请注明来源及作者。