橦言无忌

一个不想改变世界的程序媛

前言

uv 是一个用 Rust 编写的高速 Python 包解析器和安装器,旨在作为 pip 和 pip-tools 工作流的现代化替代品。它由 Astral 公司开发,该公司同时也是高性能 Python 代码格式化工具 Ruff 的幕后团队。

简单来说,uv 是一个集多种功能于一身的强大工具

阅读全文 »

前言

频谱偏差(Spectral Bias)是指神经网络在学习过程中倾向于优先捕捉输入信号中低频分量(变化较慢的模式),而对高频分量(快速变化的模式)学习较慢的现象。这种现象是神经网络固有的特性之一,对其泛化性能、优化过程和适用性有重要影响。

频谱偏差是理解神经网络表现的重要方面,在不同任务和应用场景中,其影响需要具体分析和针对性调整。

阅读全文 »

前言

Hydra 是一个非常强大且易用的工具,适合用于复杂配置的管理场景。它的模块化、动态覆盖和实验记录功能尤其适合机器学习和深度学习项目。

Hydra,配置管理

阅读全文 »

前沿

rootutils 是一个轻量级的 Python 库,用于轻松设置项目的根目录路径。它的主要作用是简化项目中根路径的管理,尤其适合那些目录结构复杂且需要频繁引用不同模块的项目。

rootutils 是一个简单但实用的工具,特别适合需要频繁操作项目路径的开发者或团队。

阅读全文 »

前言

Hydra 是一个非常强大且易用的工具,适合用于复杂配置的管理场景。它的模块化、动态覆盖和实验记录功能尤其适合机器学习和深度学习项目。

Hydra,配置管理

阅读全文 »

一,前言

主要是面向AVQA(audio visual question and answer)和AVC(audio visual caption)问题,方法自然是MLLMs(multimodal large language models),文章的出发点则是现有方法推理结果的二义性以及无法描述音视频中的特定事件。

本文方法:

  • 1,设计了一个clue收集策略,用待推理问题在音视频中的clue来丰富LLM模型接受到的信息;
  • 2,模型直接在混合多模态数据集上训练,本团队也整理了AVinstruct多模态数据集;
  • 3,提出AI辅助的二义性DPO(direct preference optimization)算法,是消除二义性的重训练策略。

Cat: 音视频理解多模态模型框架

阅读全文 »
// 代码折叠