Rethinking Image-to-Video Adaptation: An Object-centric Perspective

要約

画像からビデオへの適応は、ビデオ領域で使用するために画像モデルを効率的に適応させることを目的としています。
画像バックボーン全体を微調整する代わりに、多くの画像からビデオへの適応パラダイムは、空間モジュール上の時間モデリングに軽量アダプターを使用します。
ただし、これらの試みには効率と解釈可能性の点で限界があります。
この論文では、オブジェクト中心の観点から、新規で効率的な画像からビデオへの適応戦略を提案します。
ビデオを理解するための重要なコンポーネントとしてオブジェクトを識別する人間の知覚にヒントを得て、オブジェクト発見の代理タスクを画像からビデオへの転移学習に統合します。
具体的には、学習可能なクエリでスロット アテンションを採用し、各フレームをオブジェクト トークンのコンパクトなセットに抽出します。
これらのオブジェクト中心のトークンは、オブジェクト時間の相互作用レイヤーを通じて処理され、時間の経過に伴うオブジェクトの状態変化をモデル化します。
2 つの新しいオブジェクト レベルの損失を統合することで、ビデオ ダウンストリーム タスクの圧縮されたオブジェクト中心表現のみで効率的な時間推論を実行できる可能性を実証します。
私たちの手法は、アクション認識ベンチマークにおいて、完全に微調整されたモデルのわずか 5\%、効率的な調整手法の 50\% という、より少ない調整可能なパラメーターで最先端のパフォーマンスを実現します。
さらに、私たちのモデルは、さらなる再トレーニングやオブジェクトの注釈なしでゼロショットビデオオブジェクトセグメンテーションで良好に機能し、オブジェクト中心のビデオ理解の有効性を証明しています。

要約(オリジナル)

Image-to-video adaptation seeks to efficiently adapt image models for use in the video domain. Instead of finetuning the entire image backbone, many image-to-video adaptation paradigms use lightweight adapters for temporal modeling on top of the spatial module. However, these attempts are subject to limitations in efficiency and interpretability. In this paper, we propose a novel and efficient image-to-video adaptation strategy from the object-centric perspective. Inspired by human perception, which identifies objects as key components for video understanding, we integrate a proxy task of object discovery into image-to-video transfer learning. Specifically, we adopt slot attention with learnable queries to distill each frame into a compact set of object tokens. These object-centric tokens are then processed through object-time interaction layers to model object state changes across time. Integrated with two novel object-level losses, we demonstrate the feasibility of performing efficient temporal reasoning solely on the compressed object-centric representations for video downstream tasks. Our method achieves state-of-the-art performance with fewer tunable parameters, only 5\% of fully finetuned models and 50\% of efficient tuning methods, on action recognition benchmarks. In addition, our model performs favorably in zero-shot video object segmentation without further retraining or object annotations, proving the effectiveness of object-centric video understanding.

arxiv情報

著者 Rui Qian,Shuangrui Ding,Dahua Lin
発行日 2024-07-09 13:58:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク