Oscar-Object-Semantics Aligned Pre-training for Vision-Language Tasks

发表于 2023-11-15 分类于 Multimodal Valine：
本文字数： 1.1k 阅读时长 ≈ 1 分钟

前言

本文思想
将相同语义下的物体（名词）作为图像和语言对齐的锚点（Anchor Point）从而简化图像和文本之间的语义对齐的学习任务。

paper link
code

Oscar，微软家的VLP代表，曾经据说打败一众模型成为VLP多个任务的sota

一，本文贡献

提出了 Oscar预训练方法，这是一种强大的 VLP 方法，用于学习用于 V+L 理解和生成任务的通用图像文本表示。
开发了一个Oscar模型，其可以在多个 V+L 基准上实现了新的 SoTA，显着优于现有方法
进行了广泛的实验和分析

二，Oscar对比现有VLP（vision language pretraining）模型

通过将对象标签作为锚点引入，Oscar在两个方面与现有的VLP不同：

1，输入表示。每个（图像-文本）样本定义为一个三元组（单词序列，物体标签，区域特征）。
2，预训练目标。根据三元组中三个项目的分组方式，作者从两个不同的角度查看输入：模态视角和。对于每一种视角作者均设计了的预训练目标：
- 字典视角（Masked Token Loss）：字典视图的掩盖码恢复损失，它衡量模型根据上下文恢复丢失元素（单词或对象标签）的能力，类似Mask Language modeling，不过其同样mask掉了object tag（注意这里的object tag输入的embedding是word embedding）；
- 模态视角（Contrastive Loss）：模态视角的对比损失，它衡量模型区分原始三元组及其“污染”版本（即原始物体标签被随机采样的标签替换）的能力。
- 最终损失是这两个损失的加和

三，结论

Object tag的使用可以大大减少两个模态之间同一对象的距离。如Oscar中Person的图片和文本表示比基线方法中的视觉表示和文本表示更接近，这证明了物体标签在学习对齐语义中的重要性：物体被用做定位点链接和规范化了跨模式的特征学习。

四，多模态学习初入门

最近，视觉和语言预训练（Vision-Language Pretraining, 简称VLP）在解决多模态学习方面已显示出巨大的进步。这类方法最有代表性地通常包括如下两步：

预训练：是以自监督的方式在海量 “图像-文本”数据（Image-Text Pair，或者叫做“图文对”）上训练大型的基于Transformer的模型（例如根据上下文预测被掩盖掉的语言或者图像的元素）
微调：可以对预训练模型的交叉模式表示进行微调，以适应各种下游视觉和语言任务

大型的视觉-语言理解与生成任务：

本文作者： xinwen
本文链接： https://github.com/sophia-hxw/sophia-hxw.github.io/2023/11/15/Multimodal/Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks/
版权声明： 本博客所有文章除特别声明外，均采用 BY-NC-SA 许可协议。转载请注明出处！

// 代码折叠