橦言无忌

一个不想改变世界的程序媛

Nvidia A100, H100 and H200 GPUs

一,前言

Nvidia的A100和H100对比~

nvidia Memory Memory Structure Memory Bandwidth GPT3-175B-inference Llama-70B-inference HPC simulation
H200 141GB HBM3e 4.8TB/s 1.6X 1.9X 2.0X
H100 - - 3.35TB/s - - -

H100的显存带宽更小,为啥更受欢迎?

NVIDIA的产品发布图

外媒SemiAnalysis曾曝出一份英伟达未来几年的硬件路线图,包括万众瞩目的H200、B100和「X100」GPU.

route

英伟达官方,也公布了官方的产品路线图,将使用同一构架设计三款芯片,在明年和后年会继续推出B100和X100。

product route

H100为什么成首选?

H100比A100更受欢迎,成为首选,部分原因是缓存延迟更低和FP8计算。

因为它的效率高达3倍,但成本只有(1.5-2倍)。考虑到整体系统成本,H100的性能要高得多。

从技术细节来说,比起A100,H100在16位推理速度大约快3.5倍,16位训练速度大约快2.3倍。

A100和H100的速度对比:
a100 and h100 speed

大规模加速中的A100和H100对比:
big speedup

大多数公司购买H100,并将其用于训练和推理,而A100主要用于推理。

但是,由于成本、容量、使用新硬件和设置新硬件的风险,以及现有的软件已经针对A100进行了优化,有些公司会犹豫是否要切换。

H100的板卡找谁买?

戴尔,联想,HPE,Supermicro和广达等OEM商家都会销售H100和HGX H100。

像CoreWeave和Lambda这样的GPU云提供商从OEM厂家处购买,然后租给初创公司。

超大规模的企业(Azure、GCP、AWS、Oracle)会更直接与英伟达合作,但也会向OEM处购买。这和游戏玩家买显卡的渠道似乎也差不多。但即使是购买DGX,用户也需要通过OEM购买,不能直接向英伟达下订单。

H200(对比H100)性能

H200的性能提升最主要体现在大模型的推理性能表现上,在处理Llama 2等大语言模型时,H200的推理速度比H100提高了接近1倍。

因为计算核心更新幅度不大,如果以训练175B大小的GPT-3为例,性能提升大概在10%左右。

对于模拟、科学研究和人工智能等显存密集型HPC应用,H200更高的显存带宽可确保高效地访问和操作数据,与CPU相比,获得结果的时间最多可加快110倍。

相较于H100,H200在处理高性能计算的应用程序上也有20%以上的提升。

// 代码折叠