Align before Fuse-Vision and Language Representation Learning with Momentum Distillation 发表于 2023-11-22 更新于 2024-11-20 分类于 Multimodal Valine: 本文字数: 66 阅读时长 ≈ 1 分钟 前言本文思想 papergithub 基于动量蒸馏的视觉语言表示学习 参考自然语言处理-多模态-ALBEF:基于动量蒸馏的视觉语言表示学习 本文作者: xinwen 本文链接: https://github.com/sophia-hxw/sophia-hxw.github.io/2023/11/22/Multimodal/Align before Fuse: Vision and Language Representation Learning with Momentum Distillation/ 版权声明: 本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!