阿里通义千问大模型Qwen2-72B-Instruct通用能力登顶国内第一！

KuaFuAI 2024-08-19 15:01:04 阅读 91

前言：

中国互联网协会副秘书长裴玮近日在2024中国互联网大会上发布《中国互联网发展报告(2024)》。《报告》指出，

在人工智能领域，2023年我国人工智能产业应用进程持续推进，核心产业规模达到5784亿元。

截至2024年3月，我国人工智能企业数量超过4500家，

已有714个大模型完成生成式人工智能服务备案。

中国人工智能领域的论文产出数量位列全球第二，专利申请量超129万件，占比高达64%

今天就来看看国内大模型的翘楚

阿里通义千问大模型Qwen2-72B-Instruct

通用能力登顶国内第一！

全球开源大模型No.1

在Hugging Face 发布的开源大模型排行中阿里云开源的通义千问（Qwen）指令微调模型 Qwen2-72B 在开源模型排行榜上荣登榜首。其联合创始人兼首席执行 Clem Delangue，也在X上对中国开源大模型表示了肯定。

我们再来看一组国内的基准测评数据。

在中文大模型测评基准 SuperCLUE 的总榜单中，阿里通义千问的开源模型成为排名第一的中国大模型，也是全球最强的开源模型。

在开源排行榜单中 Qwen2-72B毫无疑问直接干到了第一名的位置。

Qwen2系列包含5个尺寸的预训练和指令微调模型。Qwen2-7B-Instruct和Qwen2-72B-Instruct均实现了长达128K tokens上下文长度的支持。

另外在针对大模型泛化性的问题上，Qwen2特别针对除了中英文之外的27种语言进行了增强，显著提升了Qwen2在多语言上的能力。

这是官方发布的Qwen2-72B和其它两个同量级开源大模型以及自身前代版本的测试。

从结果上来看，我们能清晰的看到Qwen2-72B在自然语言理解、知识、代码、数学及多语言等多项能力上均显著超越当前领先的模型。

Qwen2-72B-Instruc（指令微调），可以理解为Qwen2-72B 的一个特化版本，它在指令遵循、代码理解、数学解题以及多语言处理方面进行了优化和提升。

所以，我们再来看一下优化后的版本对比

看这数据，依旧超过同等开源大模型甚至比更大规模的模型还要强，直接就是一个降维打击。

需要特别指出的是Qwen2-72B尤其在代码和数学能力上得到了显著的提升。在python、js、java、c++等编程语言上去全面优于之前号称地标最强的Llama3-70B 。数学能力就不多说了，同样是吊打。

再来看看大海捞针的测试。

有的小伙伴可能不太了解什么是大海捞针："大海捞针"测试是指在大量数据中寻找特定的信息或模式。在大模型领域，"大海捞针"测试通常是一个比喻，用来形象地描述在海量数据中找到特定信息点的难度和复杂性。这种测试可以用于评估大型语言模型（LLMs）在处理和检索大量文本数据时的性能。

从图中我们不难看出，Qwen2-72B-Instruct模型在所有测试的上下文长度中，无论是事实检索还是文档深度检索，都展现出了较高的准确性，特别是在较短的上下文长度下。

Qwen2-72B-Instruct能够完美处理128k上下文长度内的信息抽取任务。

当然其他几个模型的也不差：Qwen2-57B-A14B-Instruct能处理64k的上下文长度；而该系列中的两个较小模型则支持32k的上下文长度。

今天的分享到这里就结束啦~

Qwen2-72B-Instruct的发布，是中国大模型语言首次登顶全球no1（尽管是开源）。这款由阿里巴巴推出的模型，在多项性能指标上超越了当前领先的开源模型，尤其在代码理解、数学解题和多语言处理方面表现出色。

目前Qwen2已经在Hugging Face和ModelScope上开源，有感兴趣的小伙伴们可以去试一下~

本文内容仅代表作者观点，或转载于其他网站，本站不以此文作为商业用途
如有涉及侵权，请联系本站进行删除
转载本站原创文章，请注明来源及作者。