一，前言

Nvidia的A100和H100对比～

nvidia	Memory	Memory Structure	Memory Bandwidth	GPT3-175B-inference	Llama-70B-inference	HPC simulation
H200	141GB	HBM3e	4.8TB/s	1.6X	1.9X	2.0X
H100	-	-	3.35TB/s	-	-	-

H100的显存带宽更小，为啥更受欢迎？

NVIDIA的产品发布图

外媒SemiAnalysis曾曝出一份英伟达未来几年的硬件路线图，包括万众瞩目的H200、B100和「X100」GPU.

英伟达官方，也公布了官方的产品路线图，将使用同一构架设计三款芯片，在明年和后年会继续推出B100和X100。

H100比A100更受欢迎，成为首选，部分原因是缓存延迟更低和FP8计算。

因为它的效率高达3倍，但成本只有（1.5-2倍）。考虑到整体系统成本，H100的性能要高得多。

从技术细节来说，比起A100，H100在16位推理速度大约快3.5倍，16位训练速度大约快2.3倍。

A100和H100的速度对比：

大规模加速中的A100和H100对比：

大多数公司购买H100，并将其用于训练和推理，而A100主要用于推理。

但是，由于成本、容量、使用新硬件和设置新硬件的风险，以及现有的软件已经针对A100进行了优化，有些公司会犹豫是否要切换。

戴尔，联想，HPE，Supermicro和广达等OEM商家都会销售H100和HGX H100。

像CoreWeave和Lambda这样的GPU云提供商从OEM厂家处购买，然后租给初创公司。

超大规模的企业（Azure、GCP、AWS、Oracle）会更直接与英伟达合作，但也会向OEM处购买。这和游戏玩家买显卡的渠道似乎也差不多。但即使是购买DGX，用户也需要通过OEM购买，不能直接向英伟达下订单。

H200的性能提升最主要体现在大模型的推理性能表现上，在处理Llama 2等大语言模型时，H200的推理速度比H100提高了接近1倍。

因为计算核心更新幅度不大，如果以训练175B大小的GPT-3为例，性能提升大概在10%左右。

对于模拟、科学研究和人工智能等显存密集型HPC应用，H200更高的显存带宽可确保高效地访问和操作数据，与CPU相比，获得结果的时间最多可加快110倍。

相较于H100，H200在处理高性能计算的应用程序上也有20%以上的提升。