要約
私たちは、計算オーバーヘッドを大幅に削減しながら競争力のあるパフォーマンスを達成する、ビデオ言語理解のための効率的なエンコーダーフリーのアプローチを紹介します。
現在のビデオ言語モデルは通常、重量のある画像エンコーダ (300M ~ 1.1B パラメータ) またはビデオ エンコーダ (1B ~ 1.4B パラメータ) に依存しているため、マルチフレーム ビデオを処理する際にかなりの計算負荷が生じます。
私たちの手法では、視覚処理に 4,500 万のパラメーターのみを使用しながら、事前トレーニングされたエンコーダーを必要とせずにビデオ入力を直接処理する新しい時空間アライメント ブロック (STAB) を導入しています。これは、従来のアプローチと比較して、少なくとも 6.5 倍の削減です。
STAB アーキテクチャは、きめ細かい特徴抽出のためのローカル時空間エンコーディング、学習された注意による効率的な空間ダウンサンプリング、およびフレーム レベルとビデオ レベルの関係をモデル化するための個別のメカニズムを組み合わせています。
私たちのモデルは、標準ベンチマークにおけるオープンエンドのビデオ質問応答において、エンコーダーベースのアプローチと同等またはそれ以上のパフォーマンスを達成します。
きめ細かいビデオ質問応答評価は、正確性や時間的理解などの重要な側面において、エンコーダベースのアプローチである Video-ChatGPT や Video-LLaVA を上回る、モデルの有効性を示しています。
広範なアブレーション研究により、アーキテクチャ上の選択が検証され、従来の方法よりも 3 ~ 4 倍 $ 高速な処理速度を達成しながら、時空間モデリング アプローチの有効性が実証されました。
コードは \url{https://github.com/jh-yi/Video-Panda} で入手できます。
要約(オリジナル)
We present an efficient encoder-free approach for video-language understanding that achieves competitive performance while significantly reducing computational overhead. Current video-language models typically rely on heavyweight image encoders (300M-1.1B parameters) or video encoders (1B-1.4B parameters), creating a substantial computational burden when processing multi-frame videos. Our method introduces a novel Spatio-Temporal Alignment Block (STAB) that directly processes video inputs without requiring pre-trained encoders while using only 45M parameters for visual processing – at least a 6.5$\times$ reduction compared to traditional approaches. The STAB architecture combines Local Spatio-Temporal Encoding for fine-grained feature extraction, efficient spatial downsampling through learned attention and separate mechanisms for modeling frame-level and video-level relationships. Our model achieves comparable or superior performance to encoder-based approaches for open-ended video question answering on standard benchmarks. The fine-grained video question-answering evaluation demonstrates our model’s effectiveness, outperforming the encoder-based approaches Video-ChatGPT and Video-LLaVA in key aspects like correctness and temporal understanding. Extensive ablation studies validate our architectural choices and demonstrate the effectiveness of our spatio-temporal modeling approach while achieving 3-4$\times$ faster processing speeds than previous methods. Code is available at \url{https://github.com/jh-yi/Video-Panda}.
arxiv情報
著者 | Jinhui Yi,Syed Talal Wasim,Yanan Luo,Muzammal Naseer,Juergen Gall |
発行日 | 2024-12-24 18:59:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google