【重磅】2024国内主流AI 大模型架构及应用场景深度分析

AI大模型_学习君 2024-07-20 11:01:03 阅读 98

经过大规模预训练的大模型，能够在各种任务中达到更高的准确性、降低应用的开发门槛、增强模型泛化能力等，是AI 领域的一项重大进步。大模型最早的关注度源于 NLP 领域，随着多模态能力的演进，CV 领域及多模态通用大模型也逐渐成为市场发展主流。政企的极大关注带动了行业领域大模型的高速发展，逐渐形成了多模态基模型为底座的领域大模型和行业大模型共同发展的局面。

伴随基于大模型发展的各类应用的爆发，尤其是生成式 AI，为用户提供突破性的创新机会，打破了创造和艺术是人类专属领域的局面。AI 不再仅仅是“分类”，而且开始进行“生成”，促使大模型带来的价值进一步升级到人类生产力工具的颠覆式革新。同时，数据规模和参数规模的有机提升，让大模型拥有了不断学习和成长的基因，开始具备涌现能力（Emergent Ability），逐渐拉开了通用人工智能（AGI）的发展序幕。

过去几年，国内外的 AI 厂商均在大模型领域有所布局。OpenAI 在 2019 年发布了GPT-2 大模型，国内互联网科技厂商也集中在 2020-2022 三年期间相继发布了自己的大模型。ChatGPT 的发布，掀起一波发展热潮，原有厂商基于自身大模型开始推出一系列生成式 AI 应用，并对外提供 API 接口。更多的创业公司、科研机构和新的科技厂商涌入该市场，发布相关的产品服务。

过去几年，国内外的 AI 厂商均在大模型领域有所布局。OpenAI 在 2019 年发布了GPT-2 大模型，国内互联网科技厂商也集中在 2020-2022 三年期间相继发布了自己的大模型。ChatGPT 的发布，掀起了一波发展热潮，原有厂商基于自身大模型开始推出一系列生成式 AI 应用，并对外提供 API 接口。更多的创业公司、科研机构和新的科技厂商涌入该市场，发布相关的产品服务。

大模型人气高涨，吸引了用户的关注，不仅是 CIO、CTO 等技术决策人员，CEO、CFO 等业务决策人员也同样希望发挥此类模型在业务用例中的潜力。用户关注度的跃升成为对厂商自身能力的考验，前期已具备全栈大模型构建能力的厂商开始显现积累优势。为帮助用户了解国内大模型市场的发展情况、厂商格局和竞争地位，我们研究团队通过详实的访谈调研，对中国市场提供大模型产品服务的厂商进行了深入的分析和评估。

全球知名大模型发布时间节点

在这里插入图片描述

关键发现点

AI 大模型的高速发展离不开底层技术支持和应用场景迭代。大模型作为 AGI 时代的曙光，相关厂商也将迎来广阔的发展空间。本报告将呈现从发展现状、驱动因素洞察 AI 大模型厂商竞争与发展关键点，并推演竞争格局的逻辑分析过程：

• 前瞻洞察：通向 AGI 的技术路径具有多元性，目前大模型是最佳实现方式。大模型具有强大的泛化性、通用性和实用性，能够降低 AI 开发门槛、提高模型精度和泛化能力、提高内容生成质量和效率等多种价值，实现了对传统 AI 技术的突破，并成为 AGI的重要起点。进而将 AI 发展由数据飞轮升级到智慧飞轮,最终迈向人机共智。大模型和人类反馈的强化学习**（ RLHF ）的结合，进一步重构了****AI 开发范式，**进入大模型主导的软件 2.0 时代。另一方面，AI 开发则形成新的“二八定律”，开发者的生产力将得到极大释放。

• 驱动因素：大模型“基础设施 - 底层技术 - 基础通用 - 垂直应用”发展路线逐渐清晰，国内各厂商加速战略布局，加大资金和技术投入，迎头赶上全球大模型产业化浪潮，本土化大模型迎来发展新机遇。整体上，行业驱动因素主要包含三个层面:

（1）政策端：政策环境持续优化，赋能AI 大模型市场高速发展。

（2）供给端：下一代 AI 基础设施等快速发展，助力大模型应用落地。

（3）需求端：AI 市场高景气，大模型下游行业需求旺盛。

• 行业观点：大模型未来发展将趋于通****用化与专用化并行 、 平台化与简易化并进。同时，**MaaS 模式将成为 AI 应用的全新形式且快速发展，重构 AI 产业的商业化结构生态，激发新的产业链分工和商业模式。**未来，大模型将深入应用于用户生活和企业生产模式，释放创造力和生产力，活跃创造思维、重塑工作模式，助力企业的组织变革和经营效率，赋能产业变革。

• 关键成功因素：大模型面临算力需求大、训练和推理成本高、数据质量不佳等挑战。一个可对外商业化输出的大模型的成功，要求其厂商拥有全栈大模型训练与研发能力、业务场景落地经验、AI 安全治理举措、以及生态开放性 4 大核心优势，才能保证其在竞争中突出重围。其中，全栈大模型训练与研发能力还包括数据管理经验，AI 基础设施建设与运营，以及大模型系统和算法设计 3 个关键要素。

• 竞争格局：在竞争格局渐趋明晰的过程中，相关厂商需跨越技术、人才、资金等壁垒，在产品技术能力、战略愿景能力、生态开放能力三大维度上展开角逐。通过遴选，报告选择了 5家大模型厂商，分别为商汤、百度、阿里巴巴、华为、腾讯，评价模型包含 15 个一级指标、56 个二级指标，对厂商大模型的各个能力进行评估。

• 用户建议**：通过此报告能够了解大模型厂商的竞争态势，关注领先厂商，**内部创建大模型战略文件，明确其优势、带来的风险和机遇，以及部署路线图，针对具体的用例，权衡模型的优势和风险，并选择合适场景试点、评估大模型的应用价值。

中国 AI 大模型主要厂商竞争力评价

厂商总览

在这里插入图片描述

评价门槛

本次评估模型设立“中国市场落地”“全栈能力”“商业基础”、“产品市场”、四项基线，同时满足这五项基线要求的大模型厂商，将入围竞争力评估。

中国市场落地：截止目前，海外大模型厂商尚未在中国落地，其产品服务和生态圈打造等关键能力在中国市场均有缺失，而非官方渠道使用相关服务的企业将面临高风险。例如，OpenAI 尚未向中国用户开放 ChatGPT 及 GPT-4 服务，类似的情况同样出现在谷歌、Meta 等大模型厂商提供的相应服务上。相较而言，接入国产及自主研发的大模型更加现实、稳定且具有可控性。

全栈能力：大模型服务考核厂商从算力基础设施、深度学习框架到算法设计优化的全栈大模型解决方案能力，以及相应的工程化和运营经验与水平。因此，入围的厂商应具备相关全栈能力，如应有自建且自运营的算力基础设施、领先的算法设计等能力。

商业基础：大模型厂商在技术层保持投入的同时，还应拥有大模型商业输出能力的积累，将大模型技术赋能现有业务之中，积累行业 know-how 和应用认知，应对大模型市场的爆发性增长和颠覆式创新时具备稳定性。

产品市场：在行业赛道日趋拥挤的情况下，厂商目前需已有成形的大模型和商业化产品，入场竞争博弈，保持先发优势，后续以获取的用户和行业数据不断迭代优化大模型。

综合竞争力评价的四大基线

在这里插入图片描述

评价模型及指标体系

三方维度诠释主要厂商综合竞争力

• 产品技术能力：训练数据、算力支撑模型开发等多个维度决定了 AI 大模型的性能效果和应用表现。产品能力越强，则证明该厂商大模型的底层技术越坚实可靠、应用服务表现越好。

• 战略愿景能力：主要从风险缓解措施、市场认知与理解等多个评价指标衡量大模型厂商的战略愿景。此维度得分越高，代表厂商战略愿景完整性越高。

• 生态开放能力：主要从生态开放性、生态体系建设、联合创新这三个维度来评价大模型厂商的生态能力。生态能力越强，则证明该厂商大模型的开放性程度越高、产业协作能力越强。

在这里插入图片描述

评价模型及指标体系

三方维度诠释主要厂商综合竞争力

在这里插入图片描述

评价模型及指标体系

部分指标中的厂商基本情况

在这里插入图片描述

综合竞争力表现

• 本报告将根据最终评价的 AI 大模型在产品技术能力、战略愿景能力、生态开放能力三个维度的综合表现对比相关厂商在 AI 大模型领域的综合竞争力

在这里插入图片描述

中国主要 AI 大模型厂商介绍

百度：AI 大底座+文心大模型

◼ 产业级知识增强大模型，夫嫩行业大模型发展

百度文心大模型源于产业、服务于产业，是产业级知识增强大模型。百度通过大模型与国产深度学习框架融合发展，打造了自主创新的 AI 底座，大幅降低了 AI 开发和应用门槛。文心大模型一大特色是“知识增强”，百度自研的多源异构知识图谱拥有超过 5,500 亿条知识，被融入到文心大模型的预训练中。文心大模型凭借海量数据和大规模知识的融合学习，能实现更高的效率、更好的效果、更强的可解释性。

◼ 大模型架构分三层体系

百度文心构建了文心大模型层、工具与平台层、产品与社区三层体系：建设更适配场景需求的基础、任务、行业三层大模型体系，提供全流程支持应用落地的工具和方法，孵化基于大模型的任务系统与创新产品。目前文心大模型已经建设了 36 个大模型。文心 API 和提供全流程开箱即用大模型能力的 EasyDL 和 BML 开发平台，全方位降低应用门槛；新增产品与社区层，包括“文心一格”、“文心百中”和旸谷社区，让更多人零距离感受到先进的 AI大模型技术带来的新体验。

百度文心大模型全景图

在这里插入图片描述

◼ 飞桨平台助力大模型落地

预训练大模型市场正处于高速发展阶段，需要解决差异化水平下开发者和企业的应用需求。百度飞桨深度学习平台向下适配各种硬件，支持文心大模型的开发、高性能训练、模型压缩、服务部署的各种能力，贯通 AI 全产业链，串联起全栈化的产业生态体系。文心大模型+飞桨深度学习平台生态共享，在市场生态方面持续发力以百度飞桨为代表的国产开发框架已经逐步与产业融合，在社区生态建设上持续发力。文心大模型是飞桨模型库的重要组成部分，与飞桨共享生态，包含产业级知识增强大模型体系，以及工具平台、API 和创意社

文心大模型与飞桨深度学习平台的关系

在这里插入图片描述

区助力大模型的高效应用。飞桨深度学习平台能助力解决大模型研发和部署的各类问题，大模型使得 AI 模型的研发门槛更低、效果更好、流程更加标准化，硬件厂商、开发者以及模型应用企业在文心+飞桨生态中，紧密链接、相互促进，形成共聚、共研、共创的健康生态。

百度大模型发展历史

在这里插入图片描述

◼ 拓展产业链生态，赋能大模型

百度聚焦生态的打造，积极拓展生态伙伴，协力推动行业发展。百度文心联合深圳燃气、吉利、泰康保险、TCL、上海辞书出版社等各领域的企业发布了行业大模型，覆盖电力、燃气、金融、航天、传媒、城市、影视、制造、社科等领域，加速推动

行业的智能化转型升级。目前生态已凝聚535 万开发者，服务 20 万家企事业单位，与 12 家硬件伙伴联合发布飞桨生态发行版，推动深度学习平台与更多硬件适配；还与国内科研院所、实验室以及高校强强联手，一同攻克 AI 技术难关，目前已赋能 389 所高校，服务 747 名教师，学分课培养 10 万余名 AI 学子。

商汤：SenseCore 商汤 AI 大装置 + 商汤日日新 SenseNova大模型体系

在这里插入图片描述

商汤大模型发展关键事件时间点

在这里插入图片描述

商汤日日新自研大模型体系

在这里插入图片描述

◼ 体系化研发能力下产业应用积累

商汤构建了从底层训练系统到算法设计优化的体系化大模型研发能力，**如兼容解码建模Uni-Perceiver，将不同模态数据编码到统一表示空间，统一不同任务范式，从而以相同架构和共享的模型参数同时处理各种模态和任务；采用更先进的大模型结构设计与大 batch训练优化算法，使得“秒画 SenseMirage”模型参数量为 Stable Diffusion 数倍，且具备更优的文本理解泛化性、图像生成风格广度以及图像高质量生成细节。

商汤通过 API 对外提供大模型服务，同时也将其作为自身业务创景创新提效的发动机。“商量 SenseChat”具备多轮对话和超长文本的理解能力，并支持编程助手，可帮助开发者更高效地编写和调试代码等一系列创新应用。另外，商汤将大模型的能力全面赋能自身的业务体系，围绕智慧商业、智慧城市、智慧生活和智能汽车四大关键领域，构建AGI 核心能力。目前商汤超大模型已经覆盖公司核心业务，有 20+落地场景大模型交付，5+ 个项目生产 Serving 交付。

商汤大模型产业布局与应用场景积累

在这里插入图片描述

商汤大模型的体系化研发能力

在这里插入图片描述

华为：ModelArts + 盘古大模型

在这里插入图片描述

华为云盘古预训练大模型架构

在这里插入图片描述

阿里：M6-OFA +“通义”大模型系列

◼ 统一底座为基础，构建层次化的模型体系

阿里巴巴通义大模型以统一底座为基础，构建了层次化的模型体系，其中通用模型层覆盖自然语言处理、多模态、计算机视觉，专业模型层深入电商、医疗、法律、金融、娱乐等行业。通用与专业领域大小模型协同，让通义大模型系列可兼顾性能最优化与低成本落地。

自 2020 年起阿里先后发布多个版本的多模态及语言大模型，在超大模型、低碳训练技术、平台化服务、落地应用等方面实现突破。通义大模型系列已在超 200 个场景中提供服务，实现了 2%～10% 的应用效果提升。为加快大模型规模化应用，达摩院还研发了超大模型落地关键技术 S4框架，百亿参数大模型在压缩率达 99%的情况下多任务精度可接近无损。

通义千问发展历程

在这里插入图片描述

◼ 关键技术开源，丰富合作生态

通义大模型系列中语言大模型 AliceMind PLUG 、多模态理解与生成统一模型AliceMind-mPLUG、多模态统一底座模型M6-OFA、超大模型落地关键技术 S4 框架等核心模型及能力已面向全球开发者开源。

阿里通义大模型架构

在这里插入图片描述

腾讯：HCC 高性能计算集群+混元大模型

◼ 新一代 HCC 高性能计算集群为大模型提供底层支持

2022 年 4 月，腾讯首次对外披露混元 AI大模型，协同了腾讯预训练研发力量，以统一的平台实现技术复用和业务降本，支持更多的场景和应用。当前，混元 AI 大模型完整覆盖 NLP 大模型、CV 大模型、多模态大模型、文生图大模型及众多行业与领域任务模型，先后在 MSR-VTT、MSVD 等五大权威数据集榜单中登顶，实现跨模态领域的大满贯。目前，HunYuan NLP 1T 大模型已在腾讯多个核心业务场景落地，并带来了显著的效果提升。近日腾讯正式发布全新的 AI 智能创作助手“腾讯智影”，推出了智影数字人、文本配音、文章转视频等 AI 创作工具。

2023 年 4 月，腾讯云发布的新一代 HCC高性能计算集群将为混元大模型提供底层支撑。新一代集群基于自研星脉高性能计算网络及存储架构，集成了腾讯云自研的TACO 训练加速引擎，大幅缩短训练时间，节约训练调优和算力成本。腾讯太极机器学习平台自研的训练框架 AngelPTM，也已通过腾讯云TACO 提供服务，帮助企业加速大模型落地。

◼ 用户生态繁荣，促进模型迭代

腾讯在社交、阅读、游戏等领域拥有庞大用户群体与强大生态，具有丰富的语料资源、数据积累和场景优势。腾讯高级执行副总裁汤道生表示，腾讯正在研发类ChatGPT 聊天机器人，将集成到 QQ、微信上。目前在智能写作、AI 绘图、游戏场景生成等方面都有新产品发布或迭代升级，有望助力其大模型在自有生态中快速迭代成长。

腾讯 HunYuan 大模型全景图

在这里插入图片描述