PAVE: Patching and Adapting Video Large Language Models

要約

事前に訓練されたビデオ大規模な言語モデル(ビデオLLM)は、驚くべき推論機能を示しますが、これらのモデルを追加のモダリティまたはデータ型(オーディオや3D情報など)を含む新しいタスクに適応させることは依然として困難です。
この論文では、オーディオ、3Dキュー、マルチビュービデオなどのサイドチャネル信号を使用して、事前に訓練されたビデオLLMを下流のタスクに適応させるための柔軟なフレームワークであるPaveを紹介します。
Paveは、「パッチ」と呼ばれる軽量アダプターを導入し、アーキテクチャや事前に訓練された重みを変更せずに、少数のパラメーターと操作をベースモデルに追加します。
そうすることで、Paveは事前に訓練されたベースモデルを効果的に適応させて、オーディオビジュアル質問の回答、3D推論、マルチビュービデオ認識、高フレームレートのビデオ理解など、多様なダウンストリームタスクをサポートできます。
これらのタスク全体で、Paveはベースモデルのパフォーマンスを大幅に向上させ、最先端のタスク固有のモデルを上回り、0.1%の追加のフロップとパラメーターのわずかなコストを発生させます。
さらに、Paveはマルチタスクの学習をサポートし、さまざまなビデオLLMにわたってよく一般化します。
私たちのコードは、https://github.com/dragonlzm/paveで入手できます。

要約(オリジナル)

Pre-trained video large language models (Video LLMs) exhibit remarkable reasoning capabilities, yet adapting these models to new tasks involving additional modalities or data types (e.g., audio or 3D information) remains challenging. In this paper, we present PAVE, a flexible framework for adapting pre-trained Video LLMs to downstream tasks with side-channel signals, such as audio, 3D cues, or multi-view videos. PAVE introduces lightweight adapters, referred to as ‘patches,’ which add a small number of parameters and operations to a base model without modifying its architecture or pre-trained weights. In doing so, PAVE can effectively adapt the pre-trained base model to support diverse downstream tasks, including audio-visual question answering, 3D reasoning, multi-view video recognition, and high frame rate video understanding. Across these tasks, PAVE significantly enhances the performance of the base model, surpassing state-of-the-art task-specific models while incurring a minor cost of ~0.1% additional FLOPs and parameters. Further, PAVE supports multi-task learning and generalizes well across different Video LLMs. Our code is available at https://github.com/dragonlzm/PAVE.

arxiv情報

著者 Zhuoming Liu,Yiquan Li,Khoi Duc Nguyen,Yiwu Zhong,Yin Li
発行日 2025-03-25 16:02:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク