橦言无忌

一个不想改变世界的程序媛

WenLan-Bridging Vision and Language by Large-Scale Multi-Modal Pre-Training

前言

针对的几个挑战性问题

  • 无效的图文之间的强关联假设
  • 预训练的效率低下
  • 模型部署困难

解决问题
提出了BriVL的双塔模型 + 借鉴MoCo的策略 + 一个给予队列的字典 + InfoNCE Loss

模型适用场景
图像检索文本、文本检索图像、图像标注、图像零样本分类、作为其他下游多模态任务的输入特征等。

paper link
code

BriVL,首个中文通用图文多模态大规模预训练模型

特点

  • BriVL使用对比学习算法将图像和文本映射到了同一特征空间,可用于弥补图像特征和文本特征之间存在的隔阂。
  • 基于视觉-语言弱相关的假设,除了能理解对图像的描述性文本外,也可以捕捉图像和文本之间存在的抽象联系。
  • 图像编码器和文本编码器可分别独立运行,有利于实际生产环境中的部署。

摘要

近年来,人们对多模态预训练模型进行了深入探索,以桥接视觉和语言。 然而,它们中的大多数通过假设文本和图像模态之间存在强语义相关性,明确地建模图像文本对之间的跨模态交互。 由于这种强有力的假设在现实场景中通常是无效的,因此我们选择对大规模多模态预训练的跨模态相关性进行隐式建模,这是我们领导的中国项目“wenlan”的重点 团队。 具体来说,利用图像-文本对的弱相关性假设,我们在跨模态对比学习框架内提出了一种称为 BriVL 的两塔预训练模型。 与OpenAI CLIP采用简单的对比学习方法不同,我们通过将最新方法MoCo适应跨模态场景,设计了更先进的算法。 通过构建一个基于队列的大型字典,我们的 BriVL 可以在有限的 GPU 资源中合并更多的负样本。 我们进一步构建了一个名为 RUC-CAS-WenLan 的大型中文多源图像文本数据集,用于预训练 BriVL 模型。 大量实验表明,预训练的 BriVL 模型在各种下游任务上均优于 UNITER 和 OpenAI CLIP。

总结

本文提出了中国第一个大规模多模态预训练模型 BriVL。 我们的 BriVL 模型的第一个版本有 10 亿个参数,在包含 3000 万个图像文本对的 RUC-CAS-WenLan 数据集上进行了预训练。 作为该项目的一部分,RUC-CAS-文澜是我们自己构建的用于多模态预训练的大型中文多源图文数据集。 值得注意的是,我们的 BriVL 模型在 RUC-CAS-WenLan 测试集和 AIC-ICC 验证集上显着优于 UNITER 和 OpenAI CLIP。 通过预先训练的 BriVL 模型,我们还开发了两个 Web 应用程序,称为 MatchSoul 和 Soul-Music。 在不久的将来,我们的 BriVL 模型将扩大到 100 亿个参数,并用 5 亿个图像文本对进行预训练。 此外,我们还将利用文本到图像生成借口任务进行多模态预训练。

// 代码折叠