橦言无忌

一个不想改变世界的程序媛

link

paper

前言

本文思想
ViLT 可以看做是一种极简多模态学习框架 Baseline,它的特点是把每个模态的特征抽取部分做到了最小化,把主要的计算量都使用 Transformer 放在了特征融合部分,在很大程度上推动了当年多模态学习的进展。比如图片部分需要一个特征提取器,文本部分呢,也需要一个特征提取器。目前的 Vision-and-Language Pre-training (VLP) 方法严重依赖于图像特征提取过程,其中大部分涉及区域性特征 (如目标检测) 和卷积架构 (如 ResNet)。ViLT 的图片和文本的特征提取模型都是 Convolution-Free 的极简架构。作者表明,ViLT 比以前的 VLP 模型快十倍,但具有竞争力或更好的下游任务性能。那么 ViLT 到底做了什么呢?其实从题目中的 “Without Convolution or Region Supervision” 就大概看得出来,ViLT 把以往多模态工作中的目标检测部分的区域性特征,从多模态学习的框架中给移除了。

这篇文章清楚的归纳了各种多模态算法,可以当成一个小综述来看,然后还提出了一种非常简单的多模态Transformer方法ViLT。

paper

一种极简多模态学习框架 Baseline

阅读全文 »

前言

PyTorchImageModels,简称 timm,是一个巨大的 PyTorch 代码集合,包括了一系列:

  • image models
  • layers
  • utilities
  • optimizers
  • schedulers
  • data-loaders / augmentations
  • training / validation scripts

旨在将各种 SOTA 模型整合在一起,并具有复现 ImageNet 训练结果的能力。

github link
hugging face models

作者:Ross Wightman,来自加拿大温哥华。首先致敬大佬!

阅读全文 »

fastalign,anymalign,mgiza(giza多进程版本),berkeley aligner。但是好像目前来开giza++在这些工具里面效果最好吧,虽然时间比较慢。想快的话可以试试fastalign。giza是基于统计的,也可以试试基于抽样的anymalign,感受一下。

fast_align
gzpp_github

// 代码折叠