一,前言
主要是面向AVQA(audio visual question and answer)和AVC(audio visual caption)问题,方法自然是MLLMs(multimodal large language models),文章的出发点则是现有方法推理结果的二义性以及无法描述音视频中的特定事件。
本文方法:
- 1,设计了一个clue收集策略,用待推理问题在音视频中的clue来丰富LLM模型接受到的信息;
- 2,模型直接在混合多模态数据集上训练,本团队也整理了AVinstruct多模态数据集;
- 3,提出AI辅助的二义性DPO(direct preference optimization)算法,是消除二义性的重训练策略。
Cat: 音视频理解多模态模型框架