Data + AI 一体架构的创新引领,开启智能数据时代新篇章

大数据AI智能圈 2024-10-03 17:31:05 阅读 75

Data + AI 一体架构的创新引领,开启智能数据时代新篇章

前言Data + AI 一体架构

前言

在当今数字化时代,数据与人工智能的融合成为了推动企业发展和创新的关键力量。深刻洞察到这一趋势,积极探索并实践了 “Data + AI” 一体架构的产品创新。这个架构不仅代表着技术的前沿发展方向,更是为企业在数据处理、分析和智能化应用等方面提供了强大的支持。

从 Data for AI 和 AI for DataWarehouse 两个关键技术方向入手,揭示了如何将大数据与人工智能深度学习、大模型训练深度协同,以及如何运用人工智能智能技术改进数据仓库的核心能力。同时,还阐述了 Data + AI 开发的全生命周期所面临的挑战及解决方案,如通过 MaxCompute 产品的分层架构、核心功能以及在交互式开发环境、海量数据预处理、AI for DW 方向和大模型应用最佳实践等方面的卓越表现。

这一创新架构的出现,为企业在数据驱动的时代中提供了新的机遇和发展路径。让我们一同深入解读阿里云的 “Data + AI” 一体架构,领略其在数据与智能融合领域的独特魅力和巨大价值。

Data + AI 一体架构

在当今数字化浪潮席卷全球的背景下,数据和人工智能的融合成为了企业实现创新和发展的关键驱动力。阿里云敏锐地捕捉到了这一趋势,积极探索 Data + AI 一体架构的产品创新,为企业提供了更高效、智能的数据处理和分析解决方案。

在这里插入图片描述

Data + AI 一体架构可以从纵向和横向两个方向拆解,即 Data for AI 和 AI for DataWarehouse。Data for AI 致力于将海量数据AI 深度学习与大模型进行深度协同,而 AI for DW 则主要通过 AI 智能技术来改进数据仓库的核心能力,其中数据治理是大家最关注的产品能力之一。

在这里插入图片描述

Data + AI 开发的全生命周期,包括数据分析、数据预处理、模型创建、模型训练、模型评估、模型预测以及部署发布等流程,涉及业务人员、数据工程师、数据分析师和数据科学家等不同角色。在这个全生命周期中,存在成本、效率、运维三方面的核心技术挑战,如数据类型多、数据管理能力差、数据开发与模型开发脱节、性能扩展能力差、训练效率低以及工程化实现缺少统一运维管理等。

在这里插入图片描述

阿里云的 MaxCompute 产品在 Data + AI 一体架构上进行了深入的实践。MaxCompute 采用了分层架构,底层的数据层提供了统一的元数据服务、分布式存储以及对象存储,在半结构化数据存储领域中,JSON 半结构化数据的优化处理颇具挑战。中间层的计算层包括数据处理、模型开发、训练与管理,该平台还提供了交互式开发的 Notebook、统一开发调度平台的 DataWorks、可视化建模的 PAI Designer 等功能。其中,该平台创新性地提供分布式计算框架 MaxFrame 与自定义镜像管理,其主要支持统一的 Python 编程接口,支持构建对 LLM 大模型应用的数据预处理算子、分布式高效计算以及第三方包管理和模型镜像管理能力等。

在这里插入图片描述

MaxCompute Data + AI 产品架构的核心功能包括统一数据管理、分布式计算框架、交互式开发环境、镜像管理等。统一数据管理 OpenLake 平台之上提供了基于统一数据湖仓的能力,支持对结构化、半结构化以及非结构化数据的管理。分布式 Python 计算框架 MaxCompute MaxFrame 则通过提供统一 Python 编程接口,提供了分布式计算能力,在数据预处理过程中提供更高效的计算,为后续 AI 训练提供完备数据。交互式开发环境即开箱即用的 Notebook,提供了更便捷的交互式大数据与 AI 开发体验。自定义镜像管理 Compute Image 通过内置第三方依赖包 / 通用模型及其他,提供了便捷高效的自定义镜像管理。

在这里插入图片描述

MaxCompute 支持 One Env + One Data + One Code 的用户体验,通过 Maxframe 进行数据预处理,并将结果直接集成在 PAI 的机器学习平台上,进行模型开发。之后使用 PAI - DLC 分布式 AI 训练平台进行对 AI 深度学习模型进行分布式训练优化,并通过 PAI 的镜像管理能力实现各类 AI 模型的管理。最后由 PAI - EAS 自动化推理组件来实现在线模型部署与发布。

在这里插入图片描述

在交互式开发环境方面,MaxCompute Notebook 为相关人员提供 Web 交互式开发环境,支持多引擎与 MaxCompute 集成,将结果输入到机器学习平台中,内置丰富的函数库,且数据安全有保障。分布式计算框架 MaxFrame 能够支持统一的 Python 编程接口,提供更多且灵活的算子兼容。另外是支持大数据、离线和 AI 的任务统一编排的 Data + AI 一体化 Pipeline。最后是开箱即用的开发体验,在可复用 MaxCompute 计算资源和数据接口以及海量数据的支撑下,面向大规模数据处理,数据可视化,科学计算以及 ML/AI 开发等多种开发场景。

在这里插入图片描述

在面向海量数据预处理场景中,通过 MaxFrame 框架计算对开源大模型项目 RedPajama 所提供的数据集进行预处理工作,包括数据预处理,文档去重,水印去除,数据过滤等。使用 MaxFrame 框架比使用基于开源算子的数据预处理整体耗时节省了 97.8%。此外,MaxCompute 还深化了 AI 非结构化数据管理,通过 Object Table 将非结构化数据抽象成表的格式,便于通过 Python 编程接口或者 SQL 语法进行便捷查询或检索。对于非结构化数据的缓存加速,查询优化以及列式数据裁剪,是把在智能数仓的 AI 智能特性应用在非结构化数据的管理上面。

在这里插入图片描述

AI for DW 方向,阿里云进行了一系列的技术与产品探索。分层存储推荐根据数据的访问量来推荐冷存或者归档的数据形态,并根据数据存储的时间与使用场景在冷存和热存之间做自动转化,通过优化存储来不断降低客户数据存储成本。物化视图智能化通过 AI 深度改造物化视图,提供物化视图推荐等智能化能力。AI for DW 智能数仓新创新包括基于 AI 的数据治理能力、作业管理优化、资源分配以及查询计划的优化等,其中基于 learning - based query optimizer,基于大模型或者传统机器学习的 AI 能力提供更强的 Auto 计算查询优化的用户体验。此外,通过智能数据重分布来实现自动化的数据分布优化,减少数据倾斜,最终实现智能数仓全面自动化。MaxCompute 成本优化器是为用户提供智能资源配置的产品组件,DataWorks Copilot 智能助手可辅助用户完成数据开发与数据分析工作,提高效率。

在这里插入图片描述

在文本去重场景中,MaxCompute Notebook 对大模型所需的裸数据进行清洗,文本分词,Hash 计算等能力,并将任务提交至 MaxCompute MaxFrame 上分布式执行。整个链路在交互式开发环境即可实现。与开源算子性能对比,MaxCompute 处理性能在性能层面提升 70% 以上,在环境准备效率上提升 10% - 30%。在大规模图片处理中,基于 MaxCompute 创建弹性资源池,通过 MaxFrame 并发读取 OSS 数据,调用第三方算子进行图片渲染,并实现分布式数据读取和计算处理。

在这里插入图片描述

在处理非结构化文本时如何更好地分割知识块、保证检索和查询准确率的问题。阿里云提出了构建专门知识库、进行人工审查和微调以及在训练过程中进行调优与微调等方法,同时强调了 Data 处理智能化和优化整体资源消耗的重要性。

在这里插入图片描述

阿里云在 Data + AI 一体架构的产品创新方面取得了显著成果,通过 MaxCompute 产品的实践,解决了数据管理、计算效率、开发体验等方面的问题,为企业提供了强大的技术支持,推动了数据与智能的深度融合,引领了数据架构领域的发展潮流。

参考

https://mp.weixin.qq.com/s/igZk0CY-KoEigjjgWWq9sw



声明

本文内容仅代表作者观点,或转载于其他网站,本站不以此文作为商业用途
如有涉及侵权,请联系本站进行删除
转载本站原创文章,请注明来源及作者。