橦言无忌

一个不想改变世界的程序媛

Oscar-Object-Semantics Aligned Pre-training for Vision-Language Tasks

前言

本文思想
将相同语义下的物体(名词)作为图像和语言对齐的锚点(Anchor Point)从而简化图像和文本之间的语义对齐的学习任务。

paper link
code

Oscar,微软家的VLP代表,曾经据说打败一众模型成为VLP多个任务的sota

一,本文贡献

  • 提出了 Oscar预训练方法,这是一种强大的 VLP 方法,用于学习用于 V+L 理解和生成任务的通用图像文本表示。
  • 开发了一个Oscar模型,其可以在多个 V+L 基准上实现了新的 SoTA,显着优于现有方法
  • 进行了广泛的实验和分析

二,Oscar对比现有VLP(vision language pretraining)模型

通过将对象标签作为锚点引入,Oscar在两个方面与现有的VLP不同:

  • 1,输入表示。每个(图像-文本)样本定义为一个三元组(单词序列,物体标签,区域特征)。
  • 2,预训练目标。根据三元组中三个项目的分组方式,作者从两个不同的角度查看输入:模态视角和。对于每一种视角作者均设计了的预训练目标:
    • 字典视角(Masked Token Loss):字典视图的掩盖码恢复损失,它衡量模型根据上下文恢复丢失元素(单词或对象标签)的能力,类似Mask Language modeling,不过其同样mask掉了object tag(注意这里的object tag输入的embedding是word embedding);
    • 模态视角(Contrastive Loss):模态视角的对比损失,它衡量模型区分原始三元组及其“污染”版本(即原始物体标签被随机采样的标签替换)的能力。
    • 最终损失是这两个损失的加和

三,结论

Object tag的使用可以大大减少两个模态之间同一对象的距离。如Oscar中Person的图片和文本表示比基线方法中的视觉表示和文本表示更接近,这证明了物体标签在学习对齐语义中的重要性:物体被用做定位点链接和规范化了跨模式的特征学习。

四,多模态学习初入门

最近,视觉和语言预训练(Vision-Language Pretraining, 简称VLP)在解决多模态学习方面已显示出巨大的进步。这类方法最有代表性地通常包括如下两步:

预训练:是以自监督的方式在海量 “图像-文本”数据(Image-Text Pair,或者叫做“图文对”)上训练大型的基于Transformer的模型(例如根据上下文预测被掩盖掉的语言或者图像的元素)
微调:可以对预训练模型的交叉模式表示进行微调,以适应各种下游视觉和语言任务

大型的视觉-语言理解与生成任务:

// 代码折叠