前言
uv 是一个用 Rust 编写的高速 Python 包解析器和安装器,旨在作为 pip 和 pip-tools 工作流的现代化替代品。它由 Astral 公司开发,该公司同时也是高性能 Python 代码格式化工具 Ruff 的幕后团队。
简单来说,uv 是一个集多种功能于一身的强大工具
主要是面向AVQA(audio visual question and answer)和AVC(audio visual caption)问题,方法自然是MLLMs(multimodal large language models),文章的出发点则是现有方法推理结果的二义性以及无法描述音视频中的特定事件。
本文方法:
Cat: 音视频理解多模态模型框架