橦言无忌

一个不想改变世界的程序媛

一,前言

Nvidia的A100和H100对比~

nvidia Memory Memory Structure Memory Bandwidth GPT3-175B-inference Llama-70B-inference HPC simulation
H200 141GB HBM3e 4.8TB/s 1.6X 1.9X 2.0X
H100 - - 3.35TB/s - - -

H100的显存带宽更小,为啥更受欢迎?

阅读全文 »

一,前言

pytorch原生库加速文本生成模型~

特征:

  • 低延迟
  • 小于1000行代码
  • 仅依赖pytorch的原生库
  • int8/int4量化
  • Speculative decoding(推测性解码?)
  • 张量并行
  • 支持Nvidia和AMD的GPU显卡

pytorch团队出品,仅依赖pure pytorch

阅读全文 »

前言

本文思想
ViLT 可以看做是一种极简多模态学习框架 Baseline,它的特点是把每个模态的特征抽取部分做到了最小化,把主要的计算量都使用 Transformer 放在了特征融合部分,在很大程度上推动了当年多模态学习的进展。比如图片部分需要一个特征提取器,文本部分呢,也需要一个特征提取器。目前的 Vision-and-Language Pre-training (VLP) 方法严重依赖于图像特征提取过程,其中大部分涉及区域性特征 (如目标检测) 和卷积架构 (如 ResNet)。ViLT 的图片和文本的特征提取模型都是 Convolution-Free 的极简架构。作者表明,ViLT 比以前的 VLP 模型快十倍,但具有竞争力或更好的下游任务性能。那么 ViLT 到底做了什么呢?其实从题目中的 “Without Convolution or Region Supervision” 就大概看得出来,ViLT 把以往多模态工作中的目标检测部分的区域性特征,从多模态学习的框架中给移除了。

这篇文章清楚的归纳了各种多模态算法,可以当成一个小综述来看,然后还提出了一种非常简单的多模态Transformer方法ViLT。

paper

一种极简多模态学习框架 Baseline

阅读全文 »
// 代码折叠