Align before Fuse-Vision and Language Representation Learning with Momentum Distillation

发表于 2023-11-22 更新于 2024-11-20 分类于 Multimodal Valine：
本文字数： 66 阅读时长 ≈ 1 分钟

前言

本文思想

基于动量蒸馏的视觉语言表示学习

参考

自然语言处理-多模态-ALBEF：基于动量蒸馏的视觉语言表示学习

本文作者： xinwen
本文链接： https://github.com/sophia-hxw/sophia-hxw.github.io/2023/11/22/Multimodal/Align before Fuse: Vision and Language Representation Learning with Momentum Distillation/
版权声明： 本博客所有文章除特别声明外，均采用 BY-NC-SA 许可协议。转载请注明出处！

// 代码折叠