CAT-Enhancing Multimodal Large Language Model to Answer Questions in Dynamic Audio-Visual Scenarios

发表于 2024-11-21 更新于 2024-11-22 分类于 UNDO Valine：
本文字数： 1.5k 阅读时长 ≈ 1 分钟

一，前言

主要是面向AVQA(audio visual question and answer)和AVC(audio visual caption)问题，方法自然是MLLMs(multimodal large language models)，文章的出发点则是现有方法推理结果的二义性以及无法描述音视频中的特定事件。

本文方法：

1，设计了一个clue收集策略，用待推理问题在音视频中的clue来丰富LLM模型接受到的信息；
2，模型直接在混合多模态数据集上训练，本团队也整理了AVinstruct多模态数据集；
3，提出AI辅助的二义性DPO(direct preference optimization)算法，是消除二义性的重训练策略。

Cat: 音视频理解多模态模型框架

阅读全文 »

VLMo-Unified Vision-Language Pre-Training with Mixture-of-Modality-Experts

发表于 2024-11-20 分类于 Multimodal Valine：
本文字数： 5 阅读时长 ≈ 1 分钟

Large Language Models as Generalizable Policies for Embodied Tasks

发表于 2024-11-19 更新于 2024-11-20 分类于 Multimodal Valine：
本文字数： 25 阅读时长 ≈ 1 分钟

https://llm-rl.github.io/

Transformer models cannot generalize beyond the training data

发表于 2024-11-18 更新于 2024-11-20 分类于 Multimodal Valine：
本文字数： 19 阅读时长 ≈ 1 分钟

paper
wechat article

How to use huggingface hub

发表于 2024-11-17 更新于 2024-11-20 分类于 Engineering Valine：
本文字数： 4 阅读时长 ≈ 1 分钟

How to use torch

发表于 2024-11-16 更新于 2024-11-20 分类于 Tools Valine：
本文字数： 9 阅读时长 ≈ 1 分钟

BPNN-solve-nonlinear-equations

发表于 2024-11-16 更新于 2024-11-20 分类于 Tools Valine：
本文字数： 44 阅读时长 ≈ 1 分钟

reference

csdn code
understand newff in matlab

Levels of AGI-Operationalizing Progress on the Path to AGI

发表于 2024-11-15 更新于 2024-11-20 分类于 Multimodal Valine：
本文字数： 19 阅读时长 ≈ 1 分钟

paper
wechat article

神经网络是函数逼近算法

发表于 2024-11-14 更新于 2024-11-20 分类于 Tools Valine：
本文字数： 11 阅读时长 ≈ 1 分钟

神经网络是函数逼近算法

compute is all U need

发表于 2024-11-14 更新于 2024-11-20 分类于 ComputerVision Valine：
本文字数： 19 阅读时长 ≈ 1 分钟

wechat aritcle
paper

// 代码折叠