AI TOPS 和 NPU 性能指标指南

weixin_38498942 2024-07-06 15:01:02 阅读 82

在当今迅速发展的技术环境中,人工智能(AI)正在重塑各个行业并推动创新,理解 AI 性能指标的细节至关重要。之前,许多 AI 模型需要在云端运行。随着我们迈向一个以设备端生成式 AI 处理为特征的未来,我们必须能够评估计算平台运行 AI 模型的性能、准确性和效率。如今,衡量处理器 AI 性能的主要方法之一是每秒万亿次操作(TOPS)。TOPS 是基于处理器(例如神经处理单元 NPU)的架构和所需频率来衡量潜在峰值 AI 推理性能的指标。我们将在下文深入探讨这一点。

什么是NPU?

在深入探讨 TOPS 的具体内容之前,让我们先审视一下 NPU 的重要性。对于设备端的 AI 处理,NPU 在提升效率和实现创新应用体验方面起着关键作用,不论是对个人用户还是公司。评估这些专用处理器的性能需要全面理解支撑其能力的指标。

NPU 的演变改变了我们处理计算的方式。传统上,CPU 负责执行 AI 算法。随着处理性能需求的飙升,专用的 NPU 作为处理 AI 软件和应用的解决方案应运而生。这些处理器被设计用于高效处理 AI 任务所需的复杂数学计算,提供无与伦比的效率、性能和功耗节省。

在这里插入图片描述

AI TOPS 是什么意思?

NPU 性能测量的核心在于 TOPS,这一指标展示了这些单元的巨大计算能力。

TOPS 通过测量在一秒钟内执行的操作(加法、乘法等)数量(以万亿次计)来量化 NPU 的处理能力。

这一标准化的测量方法强烈表明了 NPU 的性能,是比较不同处理器和架构的 AI 性能的重要标尺。由于 TOPS 是 NPU 的基础性能指标,探讨构成 TOPS 方程的参数以及它们如何决定性能是至关重要的。这样做可以更深入地理解 NPU 的能力。

乘法累加(MAC)操作执行的是 AI 工作负载核心的数学公式。矩阵乘法由一系列基本操作组成:乘法和累加。一个 MAC 单元可以在每个时钟周期内运行一次乘法和一次累加,这意味着它每个时钟周期执行两个操作。一个给定的 NPU 具有一定数量的 MAC 单元,这些单元可以在不同的精度水平上运行,具体取决于 NPU 的架构。

频率决定了 NPU 及其 MAC 单元(以及 CPU 或 GPU)操作的时钟速度(或每秒周期数),直接影响整体性能。更高的频率允许在单位时间内进行更多操作,从而实现更快的处理速度。然而,提高频率也会导致更高的功耗和热量产生,这会影响电池寿命和用户体验。处理器所引用的 TOPS 数值通常是在峰值工作频率下测得的。

精度指的是计算的细粒度,较高的精度通常与更高的模型准确性相关,但也增加了计算强度。最常见的高精度 AI 模型是 32 位和 16 位浮点数,而更快、低精度、低功耗的模型通常使用 8 位和 4 位整数精度。目前,行业标准用于测量 AI 推理的 TOPS 是在 INT8 精度下进行的。

要计算 TOPS,首先从 OPS 开始,OPS 等于 MAC 单元数量乘以其工作频率再乘以 2。TOPS 是 OPS 除以一万亿,使其更容易列出和比较,即:

在这里插入图片描述

TOPS = 2 × MAC 单元数量 × 频率 / 1 万亿。

TOPS 和实际性能

虽然 TOPS 提供了关于 NPU 能力的有价值见解,但我们仍需弥合理论指标与实际应用之间的差距。

毕竟,仅仅有一个高 TOPS 数值并不能保证最佳的 AI 性能;真正定义 NPU 实力的是各种因素协同工作的结果。

这意味着在评估 NPU 性能时,需要考虑诸如内存带宽、软件优化和系统集成等方面。基准测试可以帮助我们超越数字,了解 NPU 在实际场景中的表现,在这些场景中,延迟、吞吐量和能效比以往任何时候都更重要。

Procyon AI 基准测试使用真实的工作负载,帮助将理论上的 TOPS 测量转化为用户在实际应用中使用 AI 推理时可以预期的响应能力和处理能力。它运行六个不同精度的模型,提供了关于各种 NPU 性能的详细见解。这些类似的模型在生产力、媒体、创作者和其他应用中越来越常见。在 Procyon AI 和其他基准测试中更快的性能与更快的推理速度和更好的用户体验相关联。

为此,分析实际性能可以提供有关 NPU 能力和限制的宝贵见解。性能指标必须从实用性和实用主义的角度进行仔细审查。

在这里插入图片描述

NPU 性能指标的未来

随着技术的快速进步以及数字化转型的需求继续塑造各个行业,NPU 性能指标领域正蓄势待发,迎接进一步的演变。虽然新兴趋势正在重新定义我们构思和评估 NPU 性能和计算的方式,但 TOPS 是一个很好的性能指标,并且目前没有理由认为它会很快消失。

随着各种新兴的 AI 技术在未来几年获得牵引力并重新定义无数行业,对能够捕捉其独特特征的强大性能指标的需求将变得越来越明显。适应性、可扩展性和与实际应用的相关性将定义 NPU 性能指标的未来。

根据需求评估 NPU 性能

在快速变化的 NPU 性能测量世界中航行乍一看可能会让人望而生畏,但理解 TOPS 的细节对于各个行业和个人来说都至关重要,特别是在数字化转型——尤其是 AI 领域——以如此速度推进的情况下。

归根结底,选择合适的系统级芯片(SoC)取决于你、你的客户或你的组织的工作负载和优先事项——而你的决定很可能取决于 SoC 的 NPU。

无论你是优先考虑原始计算能力、能效还是模型准确性,Snapdragon X 系列平台都配备了全球最快的笔记本电脑 NPU,最高可达 45 TOPS,以增强你的 PC 并将实际的 AI 体验融入你的工作流程中。



声明

本文内容仅代表作者观点,或转载于其他网站,本站不以此文作为商业用途
如有涉及侵权,请联系本站进行删除
转载本站原创文章,请注明来源及作者。