最全面NVIDIA 全系GPU规格及特性对比(含应用场景)
技术瘾君子1573 2024-10-12 10:01:01 阅读 73
一、NVIDIA GPU规格及特性对比表
| H800 80GB
(SXM5)
| H800 80GB
(PCIE)
| A800 80GB
(SXM4)
| A800 80GB
(PCIE)
| A30
| L40
| A40
| A10
| T4
| L4
| A16
|
GPU CHIP
| GH100
| GH100
| GA100
| GA100
| GA100
| AD102
| GA102
| GA102
| TU104
|
| GA107
|
CUDA Cores
| 16896
| 14592
| 6912
| 6912
| 3584
| 18176
| 10752
| 9216
| 2560
|
| 1280 x4
|
Tensor Cores
| 528
| 456
| 432 (3rd Gen)
| 432 (3rd Gen)
| 224 (3rd Gen)
| 568(4th Gen)
| 336 (3rd Gen)
| 288 (3rd Gen)
| 320 (2nd Gen)
|
| 4x 40 (3rd Gen
|
RT Cores
| NA
| NA
| NA
| NA
| NA
| 142(3rd Gen)
| 84 (2nd Gen)
| 72 (2nd Gen)
| 40 (1st Gen)
|
| 4x 10 (2nd Gen)
|
FP64 (TFLOPs)
|
|
| 9.7
| 9.7
| 5.2
| NA
| NA
| NA
| NA
|
| NA
|
FP64 TENSOR CORE (TFLOPs)
|
|
| 19.5
| 19.5
| 10.3
| NA
| NA
| NA
| NA
|
| NA
|
FP32 (TFLOPs)
| 67
| 51
| 19.5
| 19.5
| 10.3
| 90.5
| 37.4
| 31.2
| 8.1
|
| 4x 4.5
|
TF32 (TFLOPs)
| 989*
| 756*
| 156 | 312*
| 156 | 312*
| 82 | 165*
| 90.5|181
| 74.8|149.6*
| 62.5|125*
|
|
| 4x 9 | 4x 18
|
FP16 (TFLOPs)
| 1979*
| 1513*
| 312 | 624*
| 312 | 624*
| 165| 330*
| 181.05|362.1
| 149.7|299.4*
| 125|250*
| 65
|
| 4x 17.9 | 4x 35.9
|
FP8 (TFLOPs)
| 3958*
| 3026*
| NA
| NA
| NA
| 362|724
| NA
| NA
| NA
|
| NA
|
INT8 (TOPs)
| 3958*
| 3026*
| 624 | 1248*
| 624 | 1248*
| 330| 661*
| 362|724
| 299.3|598.6*
| 250 |500 *
| 130
|
| 4x 35.9 | 4x 71.8
|
INT4(TOPs)
| NA
| NA
| 1248/2496*
| 1248/2496*
| 661 | 1321
| 724|1448
| 598.7/1197.4
| 500 | 1000*
| 260
|
|
|
MIG Support
| Yes
| Yes
| Yes
| Yes
| Yes
| NA
| NA
| NA
| NA
|
| NA
|
Memory Size
| 80GB HBM3
| 80GB HBM2e
| 80GB HBM2e
| 80GM HBM2e
| 24 GB HBM2
| 48GB GDDR6
| 48GB GDDR6
| 24GB GDDR6
| 16 GB GDDR6
|
| 64 GB GDDR6 (4x16 GB )
|
Memory BW (GB/s)
| 3000
| 2000
| 1555 | 2039
| 1555 | 1935
| 933
| 864GB/s
| 696
| 600
| 320
|
| 4x 200
|
Ray Tracing
| No
| No
| No
| No
| No
| Yes
| Yes
| Yes
| Yes
|
| Yes
|
Media Acceleration
| 8 NVDEC 8 JPEG Decoder
| 8 NVDEC 8 JPEG Decoder
| 5 NVDEC
1 JPEG Decoder
| 5 NVDEC
1 JPEG Decoder
| 4 NVDEC
1 JPEG Decoder
| 3x NVENC
3x NVDEC
(+AV1 Encode & Decode)
| 1 NVENC 2 NVDEC (+AV1 decode)
| 1 NVENC 2 NVDEC (+AV1 decode)
| 1 NVENC
2 NVDEC
|
| 4 NVENC 8 NVDEC
|
Form Factor
| SXM5
| ×16 PCIe Gen5 2 Slot FHFL
| SXM4 module on baseboard
| x16 PCIe Gen4 2 Slot FHFL
| x16 PCIe Gen 4 2 Slot FHFL
| 4.4” (H) x 10.5” (L) - dual slot
| x16 PCIe Gen4 2 Slot FHFL 1 NVLINK bridge
| x16 PCIe Gen 4 1 Slot FHFL
| PCIE LP
|
| PCIe Gen 4 Dual Slot FHFL
|
Power
| 700 Watts
| 350 Watts
| 400W
| 250W | 300w
| 165W
| 300w
| 300W
| 150W
| 70 W
|
| 250W
|
型号
| A100→A800
| H800
| A30
| A2
| T4
| L4
| A40
| L40
| A10
| A16
|
工作负载定位
| 计算
| 计算/图形
| 图形
| |||||||
CUDA core
| 6912
| 14592
| 3584
| 1280
| 2560
| TBD
| 10752
| TBD
| 9216
| 4*1280
|
FP32性能
| 19.5T
| 51T
| 10.3T
| 4.5T
| 8.1T
| TBD
| 37.4T
| 87.5T
| 31.2T
| 4*4.5T
|
缓存性能
| 80GB HBM2e
1.94TB/s
| 80GB HBM2e
1.94TB/s
| 24GB HBM2
933GB/s
| 16GB GDDR6
200GB/s
| 16GB GDDR6
320GB/s
| 24GB GDDR6
300GB/s
| 48GB GDDR6
696GB/s
| 48GB GDDR6
864GB/s
| 24GB GDDR6
600GB/s
| 4*16GB GDDR6
4*200GB/s
|
MIG
|
最大7个
| 支持
最大7个
| 支持
最大4个
| 不支持
| 不支持
| 不支持
| 不支持
| 不支持
| 不支持
| 不支持
|
编解码能力
| 5*NVDEC
| 7*NVDEC
7*NVJEPG
| 1*OFA
4*NVDEC
1*NVJPEG
| 1*NVENC 2*NVDEC
| 1*NVENC 2*NVDEC
| 2*NVENC 4*NVDEC
4*NVJPEG
| 1*NVENC 2*NVDEC
| 3*NVENC 3*NVDEC
4*NVJPEG
| 1*NVENC 2*NVDEC
| 4*NVENC 8*NVDEC
|
具体应用
| 高性能计算、AI、HPC、数据处理
| AI推理、主流计算平台
| 小型数据中心、边缘AI、入门级推理应用、小规模视频图像分析处理
| 高性能图像处理、虚拟计算、大规模渲染
| 主流视频图像AI分析处理、4K云游戏
| 高密云桌面,4K分辨率,最大编解码流
| ||||
产品分析
及策略
| 旗舰产品,市场认可度高,一般作为各厂商对比的标杆,互联网等大客户最普遍使用。引导有条件的客户使用HGX版本,成本近似,集群拓展能力强,大模型训练场景首选。
| A800升级Hopper架构的新款型,性能大幅提升,但FP64算力阉割且NVLink带宽同样受限为400GB/s,同时成本大幅上升,与A800长时间在市场并存,市场接受程度有待检验。
| 显存配比紧缺,云端业务使用中对模型大小有一定限制;MIG场景性能更均衡,胜在性价比高。适用于性能密度要求不高,中等或轻量型的云端业务。可在特定场景低成本替代A100或T4方案。
| A2较T4性能规格有所降低,计算成本稍高部分应标参数不满足,市场机会较少,在客户未明确参数要求,且对成本要求高的条件下,可推A2。
| 作为万金油产品,市场对T4接受度高,且T4 EOL时间进一步延长。AI推理&视频编解码最常用的型号,一般作为各厂商对比的标杆产品。小型数据中心&边缘推理、轻度AI场景仍主推T4。
| T4的Ada Lovelace架构升级替代款,可广泛用于AI推理及视频编解码分析场景,T4停采后作为主推款型。
| 在传媒、医疗等具备图形需求场景性价比更高;在非图形类的部分科研的中等规模AI计算需求中,在FP32算力中与A100相比更具优势,性价比更高。目前需求主要集中在特定AI计算场景。
| A40的架构升级款,与A40定位重合且长期共存,但性能更高,且支持Ada架构新图形特性。需求场景与A40一致,同时成本上升,市场接受度有待检验。
| 互联网、运营商等客户的云端推理场景下,与原有T4方案相比,A10整机成本更低,性能更优,多采用A10替代。
| 和T4卡相比,对虚拟桌面场景进行专门优化,性价比突出,高密度云桌面及视频解析场景推荐。
|
二、NVIDIA GPU训练推理卡
物料描述
| 场景
|
NV TESLA T4 -E3x16 16GB 70W 单宽 GPU卡
|
|
NV A10 -E4x16 24GB 150W 单宽 GPU卡
| 推理
|
NV A30 -E4x16 24GB 165W GPU卡
| 推理
|
NV A800 -E4x16 80GB 300W 双宽 GPU卡
| 训练
|
NV HGX A800 8-GPU 80GB(201)
| 训练
|
三、 NVIDIA 图形显卡
物料描述
| 场景
|
NV RTX A5000 24GB E4X16 230W 双宽 显卡
| 显卡-图形
|
NV RTX A4000 16GB E4X16 140W 单宽 显卡
| 显卡-图形
|
NV A40 -E4x16 48GB 300W 双宽 GPU卡
| GPU-图形
|
声明
本文内容仅代表作者观点,或转载于其他网站,本站不以此文作为商业用途
如有涉及侵权,请联系本站进行删除
转载本站原创文章,请注明来源及作者。