一,前言
主要是面向AVQA(audio visual question and answer)和AVC(audio visual caption)问题,方法自然是MLLMs(multimodal large language models),文章的出发点则是现有方法推理结果的二义性以及无法描述音视频中的特定事件。
本文方法:
- 1,设计了一个clue收集策略,用待推理问题在音视频中的clue来丰富LLM模型接受到的信息;
- 2,模型直接在混合多模态数据集上训练,本团队也整理了AVinstruct多模态数据集;
- 3,提出AI辅助的二义性DPO(direct preference optimization)算法,是消除二义性的重训练策略。
Cat: 音视频理解多模态模型框架
二,动机和主要贡献
MLLMs 擅长常识问答,学术问答,但在动态音视频中的人物仍具挑战性,难点在于训练时的大规模跨模态数据在进入LLM之前的对齐,因此也容易在推理的描述中产生二义性。
现有方法:最简单的方法就是直接建立文本与其他模态之间的关联,缺陷是会限制细节信息的获取。然后,当然可以使用交叉注意力机制,以向音频内容提问的方式解决多模态的对齐问题,但是实践中也存在具体视觉对象或者声音无法准确定位的问题。
2.1 本文动机
- 针对音视频与问题关联不够
常规的MLLMs模型是音视频各自提取特征之后链接到LLM模型,questions做文本特征提取后也链接到LLM模型来做推理,缺乏questions与音视频特征在底层的信息融合。 - 多模态与文本的对齐
多模态很难与文本对齐,因此在推理时免不了二义性问题,这也间接影响了音视频理解任务的准确性。
2.2 本文方法
- 聚合(aggregator)问题相关的关键提示(clue)
除了全局的音视频特征信息,本文设计了一个整合器,充分获取底层维度上问题的文本特征与音视频特征之间的交互,从而让LLM的推理能更聚焦问题相关的音视频信息。 - 混合音视频训练策略
本文模型的训练除了视频-文本和音频-文本对的数据,还使用了高质量的音视频指令数据,同时还维护了一个名为AVinstruct的数据集。 - MLLMs应对二义性的再训练
虽然是多模态训练,仍然难以处理复杂的二义性问题,本文将二义性看作模型推理优化问题,用AI辅助二义性关联的DPO策略。详细来说,就是将二义性的反馈视作负面反馈,理解为缺乏特定音视频对象的细节,本文会在训练过程中收集这些负面反馈,利用GPT重写为正面反馈,在多模态训练之后,应用ADPO算法来重训练重构的“负面->正面”的数据,因为在GPT重写之后会更细节的来进行正向描述。应用这个策略,CAT能迫使自己更关注不带二义性的反馈。
2.3 本文贡献
- 引入CAT这个novel的音视频语言模型,让问题更关注底层的音视频信息。整理并维护了AVinstruct音视频关联指令数据集。
- AI辅助下针对二义性的DPO策略,应用到MLLMs来克服带二义性描述特定音视频对象的问题。
- 在多个多模态数据集上评价CAT,实验证明了CAT的先进性,在基于视频的文本生成任务和zero-shot VQA任务上达到sota。
三,本文主要方法
3.1 三个分支
两个编码器:使用预训练的音频->文本和视频->文本的ImageBind模型
- 视频用帧的维度在时间上进行压缩以降低计算开销
- 这两个编码器之后都用两个线性映射层(projector)链接到LLM
关键提示聚合器