AI大模型:国内外大模型发展情况梳理

冻感糕人~ 2024-06-27 13:31:02 阅读 51

20221130OpenAI发布ChatGPT**,随即引爆社交网络,大模型行业进入加速发展阶段。国外基础模型实力强劲、不断精 进,开源模型打造庞大应用生态,端侧模型小而美。国内大模型也进入加速成长期,在过去一年中取得了实质性突破。百度文心一言、 讯飞星火、清华智谱ChatGLM4、商汤“日日新SenseNova5.0”整体表现逼近GPT-4,开源模型快速进步,文生视频、文生音乐等多模态 也取得突破。国内大模型网页流量和应用下载量节节攀升,大模型已经成为日常生活中的重要助手。**

国外大模型持续领跑,闭源、开源、端侧模型异彩纷呈

国外大模型主要分为三个层级:性能强劲的闭源模型,具备生态优势的开源模 型,以及专注端侧应用的轻量模型。国外基础模型能力持续提升,闭源模型中巨头各显其才。GPT-4性能卓越,始终处于领跑地位, GPT-4o模型实现端到端信息处理,人机交互体验大幅提升;Claude 3后起之秀,整体性能十分强劲;原生多模态大模型Gemini,多模态能 力、跨模态能力取得突破。开源模型领域中,LLama2模型塑造了庞大的开源模型家族,LLama3能力大幅提升;Mixtral 8x7B为开源领域 引入专家混合技术,成为开源模型的重要力量。端侧应用需要在轻量参数和模型性能之间平衡,Phi-3、Gemma2实现轻量级模型的小而 美。国外闭源模型有望迎来突破,我们预期GPT-5或于近期发布,性能改进超预期。

国内大模型进入性能提升的关键时期,模型应用逐步铺开。2022年11月30日OpenAI发布ChatGPT,随即引爆社交网络。国内大模型也进 入加速成长期,在过去一年中取得了实质性突破。国内第一梯队的大模型整体能力目前已经逼近GPT-4,部分模型中文能力与GPT-4相差 无几。百度文心大模型4.0整体性能优异,成为首个国内面向C端收费的大模型产品;科大讯飞星火大模型V3.5性能逼近GPT-4,6月27日 模型即将再度更新;清华智谱ChatGLM4基础模型性能强劲,大模型生态全面对标OpenAI;商汤“日日新SenseNova5.0”大模型,其主流 客观评测指标达到或超越GPT-4 Turbo。开源模型阵营中,存在通义千问、百川智能实力强劲的竞争对手。多模态模型中,国产大模型同 样进展不断,国产文生视频大模型Vidu发布,对标Sora持续迭代;昆仑万维发布文生音乐大模型天工Skymusic,整体表现不输Suno。国内 大模型网页流量和应用下载量节节攀升,安卓应用商店中豆包累计下载1.47亿,讯飞星火累计下载1.06亿,大模型已经成为日常生活中的 重要助手。

在这里插入图片描述

国内大模型发展情况

2022年11月30日,OpenAI发布ChatGPT,随即引爆社交网络。国内大模型也进入加速成长期,在过去一年中取得了实质性 的突破。国内大模型的发展大致可以分为三个阶段,即准备期(2022.12-2023.02)、成长期(2023.02-2023.23)、爆 发期(2023.12-)。

在这里插入图片描述

国内大模型分布情况

在这里插入图片描述

国内大模型快速逼近GPT-4

国内第一梯队的大模型整体能力目前已经逼近GPT-4,部分模型中文能力与GPT-4相差无几。5-6月,国内多家大模型将 迎来版本更新,今年年中是国内大模型的关键赛点,预期我们将见到部分头部大模型整体能力上超越GPT-4。

在这里插入图片描述

国内大模型能力测试

客观评价大模型能力存在一定的难度,不同的模型测试可能考察了模型不同维度的能力,因而模型之间的性能比较在不 同测试中可能表现不一致,同时大模型的每次响应同样存在不确定性,增加了大模型的测试难度。

结合不同机构的第三方测试,我们大致可以知晓模型之间的性能差异。GPT-4展现出强大的语言理解、生成和推理能力, 在各类测试中均保持领先地位。各类评测中模型表现可能略有不同,但是国内第一梯队的大模型整体能力目前已经快速 逼近GPT-4。国内大模型发展迅速,与GPT-4差距快速缩小,第一梯队的头部大模型例如ChatGLM4、百度文心一言4.0、 讯飞星火V3.5整体表现已经接近GPT-4,在中文领域,国内部分模型表现已经可以比肩GPT-4。

在这里插入图片描述

百度文心一言4.0

11月1日,百度正式上线文心一言专业版,技术持续升级。文心一言大模型专业版基于公司最新自研的文心大模型4.0, 与原有的3.5版本相比,具有以下优势:1)更强的模型能力和图片生成能力。根据测试,文心大模型4.0版本在理解、生 成、逻辑、记忆四大功能上都有明显提升,具有显著优化的模型性能。2)支持接入丰富的API插件,可以实现撰写代码、 润色文案、设计与绘图等多种功能。

文心一言成为首个国内面向C端收费的大模型产品。文心一言专业版的分为单独订阅和联合会员两种收费模式。单独订 阅模式下,会员月付59.9元,选择连续包月可以享受49.9元的优惠价格;该模式下会员可以使用文心一言大模型3.5和 4.0两个版本,而非会员只可使用免费的文心大模型3.5版本。联合模式下,用户月付99元,可以同时具有单独订阅模式 的全部功能,并获得文心一格白银会员资格,享受AI修图改图等功能。

在这里插入图片描述

科大讯飞星火大模型V3.5

1月30日,科大讯飞举行星火认知大模型V3.5升级发布会。讯飞发布基于首个全国产算力训练的讯飞星火V3.5,七大核心 能力全面提升,语言理解、数学能力、语音交互能力超过 GPT-4 Turbo,代码达到 GPT-4 Turbo 96%,多模态理解达到 GPT-4V 91%。

4月26日,讯飞星火大模型V3.5春季上新,发布长文本、长图文、长语音大模型。不仅可以快速学习各种来源的海量文本、 图文资料、会议录音,还能够针对多种多样的行业场景给出专业、准确回答。此外,星火语音大模型本次更新还包括多 情感超拟人合成功能,具备情绪表达能力,并推出一句话声音复刻功能。

讯飞正式启动对标GPT-4的大模型训练,2024年上半年对标GPT-4,要走独立的技术路线和产业方向,形成完整产业生态。

在这里插入图片描述

清华智谱ChatGLM4

1月16日,2024年度技术开放日Zhipu DevDay,智谱AI发布了新一代基座大模型GLM-4。在大规模多任务语言理解评测中, GLM-4的表现明显优于GPT-3.5,其平均得分已经达到了GPT-4的95%水平,在某些特定任务上甚至表现相当;

GLM-4具备强大的多模态能力:文生图和多模态理解能力得到增强,CogView3在文生图多个评测指标上,相比DALLE3约 在91.4%-99.3%的水平之间。

GLM-4推出的All Tools能力:GLM-4能自主理解和执行复杂任务,调用浏览器、代码解释器等完成复杂工作。

个性化智能体功能:用户可以通过智谱官网轻松创建属于自己的GLM智能体,实现大模型开发定制。

在这里插入图片描述

商汤日日新SenseNova5.0

4月23日,商汤科技在技术交流日上发布全新升级的“日日新SenseNova5.0”大模型,其主流客观评测指标达到或超越 GPT-4 Turbo。日日新5.0模型能力提升一方面得益于采用混合专家架构(MoE),激活少量参数就能完成推理,且推理 时上下文窗口高达200K左右;另一方面来自海量的训练数据,其训练数据超过10TB tokens、覆盖了数千亿量级的逻辑 型合成思维链数据。

商汤多模态大模型的图文感知能力达到全球领先水平,在权威综合基准测试MMBench中综合得分居首位,在多个知名多 模态榜单MathVista、AI2D、ChartQA、TextVQA、 DocVQA、MMMU均取得优异成绩。

在这里插入图片描述

百川智能Baichuan

1月29日,百川智能发布超千亿参数的大语言模型 Baichuan 3。在多个权威通用能力评测如CMMLU、GAOKAO和AGI-Eval 中,Baichuan 3都展现了出色的能力,尤其在中文任务上更是超越了GPT-4。而在数学和代码专项评测如MATH、HumanEval 和MBPP中同样表现出色,证明了 Baichuan 3在自然语言处理和代码生成领域的强大实力。

Baichuan 2是百川智能推出的开源大语言模型,采用2.6万亿Tokens的高质量语料训练。Baichuan 2在多个权威的中文、 英文和多语言的通用、领域 benchmark 上取得同尺寸最佳的效果。包含7B、13B的 Base和Chat版本,并提供了Chat版本 的4bits量化。

在这里插入图片描述

通义千问Qwen打造丰富的开源大模型矩阵

通义千问2023年4月问世以来,专注于基础模型的技术研发,从初代模型升级至2.5版本。相比上一版本,2.5版模型的理 解能力、逻辑推理、指令遵循、代码能力分别提升9%、16%、19%、10%,中文能力持续领先。

今年2月初,通义千问团队推出开源模型系列Qwen1.5,随后在不到3个月的时间连续开出8款大语言模型,模型参数规模涵 盖5亿、18亿、40亿、70亿、140亿、320亿、720亿、1100亿,打造了丰富的开源模型矩阵。能力最强的Qwen1.5-110B在 MMLU、TheoremQA、GPQA等多个基准测评中展现出卓越性能,基础能力可与Meta的Llama-3-70B模型相媲美。

在这里插入图片描述

字节跳动“豆包”大模型

5月15日,字节跳动正式对外发布豆包大模型,豆包大模型家族包括豆包通用模型Pro、豆包通用模型Lite、豆包·角色扮 演模型、豆包·语音合成模型、豆包·声音复刻模型、豆包·语音识别模型、豆包·文生图模型模型等,这些模型已接入 抖音、番茄小说、飞书、巨量引擎等50余个业务。

豆包主力模型定价0.0008元/千Tokens,一元钱能买到豆包主力模型的125万Tokens,约200万汉字,极具价格竞争力。

苹果APP Store和各大安卓应用市场,豆包APP的下载量在AIGC类应用中排名第一,豆包上已有超过800万个智能体被创建, 月度活跃用户达到2600万。

在这里插入图片描述

月之暗面Kimi智能助手上下文长度突破200万字

MoonshotAI提供超长记忆AI助手Kimi。23年10月,月之暗面推出可支持20万字无损上下文长度的智能助手Kimi,具备显 著的中文优势,能够为用户提供智能搜索、回答问题、速读文件、整理资料、激发灵感、辅助创作等服务,上下文长度可 以达到Claude 100k的2.5倍、GPT-4-32k的8倍。

Kimi智能助手使用方便,新版Kimi与之前版本相比在相同设备和成本的情况下模型响应速度提升了3倍左右。

Kimi推出应用商店Kimi+。首批上线共5大类23个Kimi+,覆盖了很多常用的场景。五大类主要包括官方推荐、办公提效、 辅助写作、社交娱乐、生活实用,不同的Kimi+ 可以用来解决不同的问题,包括写提示词、写文章、搜索资源等等。

在这里插入图片描述

Deepseek-V2具备较强的推理成本优势

深度求索Deepseek发布了v2版本的模型,沿袭了Deepseek-MoE(混合专家模型)的技术路线,采用大量的小参数专家进 行建模,同时在训练和推理上加入了更多的优化。Deepseek对模型进行了完全的mit协议开源,可以商用。

Deepseek V2模型参数量达到236B,同时由于模型小专家混合的特性,模型每个token在推理时的激活参数为21B,可以实 现高推理速度。模型的核心优化点多头隐式注意力显著降低了训练和推理成本。在成本效率方面,相比V1的稠密模型, V2模型节约了42.5%的训练成本,减少了推理时93.3%的 KV-cache 显存占用,将生成的吞吐量也提升到了原来的5.76倍。

Deepseek-V2在众多开源模型中表现仅次于70B 的 LLaMA3,超过了他们此前发布的V1代67B的非MoE模型。

在这里插入图片描述

国内多模态模型相关进展

国产文生视频大模型Vidu发布,对标Sora持续迭代

**国产文生视频大模型****Vidu正式发布,实现重大技术突破。**4月27日,国产AI视频大模型Vidu发布。Vidu是由清华大学和 生数科技联合开发的中国首个长时长、高一致性、高动态性视频大模型。它不仅能够精确模拟现实世界的物理特性,还 具备强大的创新能力。Vidu能够制作出具有多个镜头视角的视频内容,并且在不同镜头之间保持高度的时空连贯性。目 前Vidu能够实现一键生成长达16秒、1080P高分辨率的高清视频。

**Vidu采用独创U-ViT架构,正在加速迭代。**Vidu采用了一种独创的架构——U-ViT,该架构融合了Diffusion技术和 Transformer技术。其核心技术U-ViT架构由团队于2022年9月提出,其Diffusion与Transformer融合的架构完全由团队自 主研发。

在这里插入图片描述

国产文生音乐大模型天工Skymusic

天工SkyMusic基于昆仑万维天工3.0超级大模型打造,采用了音乐音频领域的类Sora架构,是目前国内唯一公开可用的 AI音乐生成大模型。天工SkyMusic采用音乐音频领域类Sora模型架构,Large-scale Transformer负责谱曲,来学习 Music Patches的上下文依赖关系,同时完成音乐可控性;Diffusion Transformer负责演唱,通过LDM让Music Patches 被还原成高质量音频,使得天工SkyMusic能够支持生成80秒44100Hz采样率双声道立体声歌曲。

天工SkyMusic具备高质量AI音乐生成、人声“以假乱真”、歌词段落控制、多种音乐风格、歌唱技巧学习等特点。目前 Skymusic已经开启公测,所有用户可以免费使用。

在这里插入图片描述

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

大模型 AI 能干什么?大模型是怎样获得「智能」的?用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例:向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示(Embeddings)向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

为什么要做 RAG什么是模型什么是模型训练求解器 & 损失函数简介小实验2:手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身:基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例:如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述



声明

本文内容仅代表作者观点,或转载于其他网站,本站不以此文作为商业用途
如有涉及侵权,请联系本站进行删除
转载本站原创文章,请注明来源及作者。