橦言无忌

一个不想改变世界的程序媛

ViLT-Vision-and-Language Transformer Without Convolution or Region Supervision

前言

本文思想
ViLT 可以看做是一种极简多模态学习框架 Baseline,它的特点是把每个模态的特征抽取部分做到了最小化,把主要的计算量都使用 Transformer 放在了特征融合部分,在很大程度上推动了当年多模态学习的进展。比如图片部分需要一个特征提取器,文本部分呢,也需要一个特征提取器。目前的 Vision-and-Language Pre-training (VLP) 方法严重依赖于图像特征提取过程,其中大部分涉及区域性特征 (如目标检测) 和卷积架构 (如 ResNet)。ViLT 的图片和文本的特征提取模型都是 Convolution-Free 的极简架构。作者表明,ViLT 比以前的 VLP 模型快十倍,但具有竞争力或更好的下游任务性能。那么 ViLT 到底做了什么呢?其实从题目中的 “Without Convolution or Region Supervision” 就大概看得出来,ViLT 把以往多模态工作中的目标检测部分的区域性特征,从多模态学习的框架中给移除了。

这篇文章清楚的归纳了各种多模态算法,可以当成一个小综述来看,然后还提出了一种非常简单的多模态Transformer方法ViLT。

paper

一种极简多模态学习框架 Baseline

参考

ViLT:最简单的多模态Transformer
多模态超详细解读 (二):ViLT:一种极简多模态学习框架 Baseline

// 代码折叠