一,前言
Nvidia的A100和H100对比~
| nvidia | Memory | Memory Structure | Memory Bandwidth | GPT3-175B-inference | Llama-70B-inference | HPC simulation |
|---|---|---|---|---|---|---|
| H200 | 141GB | HBM3e | 4.8TB/s | 1.6X | 1.9X | 2.0X |
| H100 | - | - | 3.35TB/s | - | - | - |
H100的显存带宽更小,为啥更受欢迎?
NVIDIA的产品发布图
外媒SemiAnalysis曾曝出一份英伟达未来几年的硬件路线图,包括万众瞩目的H200、B100和「X100」GPU.

英伟达官方,也公布了官方的产品路线图,将使用同一构架设计三款芯片,在明年和后年会继续推出B100和X100。

H100为什么成首选?
H100比A100更受欢迎,成为首选,部分原因是缓存延迟更低和FP8计算。
因为它的效率高达3倍,但成本只有(1.5-2倍)。考虑到整体系统成本,H100的性能要高得多。
从技术细节来说,比起A100,H100在16位推理速度大约快3.5倍,16位训练速度大约快2.3倍。
A100和H100的速度对比:
大规模加速中的A100和H100对比:
大多数公司购买H100,并将其用于训练和推理,而A100主要用于推理。
但是,由于成本、容量、使用新硬件和设置新硬件的风险,以及现有的软件已经针对A100进行了优化,有些公司会犹豫是否要切换。
H100的板卡找谁买?
戴尔,联想,HPE,Supermicro和广达等OEM商家都会销售H100和HGX H100。
像CoreWeave和Lambda这样的GPU云提供商从OEM厂家处购买,然后租给初创公司。
超大规模的企业(Azure、GCP、AWS、Oracle)会更直接与英伟达合作,但也会向OEM处购买。这和游戏玩家买显卡的渠道似乎也差不多。但即使是购买DGX,用户也需要通过OEM购买,不能直接向英伟达下订单。
H200(对比H100)性能
H200的性能提升最主要体现在大模型的推理性能表现上,在处理Llama 2等大语言模型时,H200的推理速度比H100提高了接近1倍。
因为计算核心更新幅度不大,如果以训练175B大小的GPT-3为例,性能提升大概在10%左右。
对于模拟、科学研究和人工智能等显存密集型HPC应用,H200更高的显存带宽可确保高效地访问和操作数据,与CPU相比,获得结果的时间最多可加快110倍。
相较于H100,H200在处理高性能计算的应用程序上也有20%以上的提升。