要約
画像モデルをビデオ領域に適応させることは、ビデオ認識タスクを解決するための効率的なパラダイムとして浮上しました。
膨大な数のパラメータと画像モデルの効果的な転送可能性により、完全な微調整の実行は効率が低く、さらには不必要です。
したがって、最近の研究は、パラメータ効率の高い画像からビデオへの適応に焦点を移しています。
ただし、これらの適応戦略では、ビデオのドメイン ギャップと時間モデリングに対処するための追加の計算コストが必然的に発生します。
この論文では、画像変換器をビデオ認識タスクに移すための新しい適応パラダイム (ZeroI2V) を紹介します (つまり、推論中に元のモデルに追加コストをゼロに導入します)。
この目標を達成するために、2 つの主要な設計を紹介します。
まず、ビデオのダイナミクスをキャプチャし、画像からビデオへの適応の難しさを軽減するために、自己注意の柔軟性を活用し、時空間双頭注意 (STDHA) を導入します。
このアプローチにより、追加のパラメーターや計算を必要とせずに、画像変換機能に時間モデリング機能が効率的に与えられます。
次に、画像とビデオ間のドメインギャップに対処するために、軽量で高密度に配置された線形アダプタを利用して、フリーズした画像モデルをビデオ認識に完全に転送する線形適応戦略を提案します。
カスタマイズされた線形設計のおかげで、新しく追加されたアダプターはすべて、トレーニング後の構造の再パラメーター化を通じて元のモジュールと簡単にマージでき、推論中の追加コストをゼロにすることができます。
代表的な完全教師付きの少数ショットビデオ認識ベンチマークに関する広範な実験により、ZeroI2V は優れたパラメーターと推論効率を享受しながら、以前の最先端の方法と同等、またはそれを上回るパフォーマンスを発揮できることが示されています。
要約(オリジナル)
Adapting image models to the video domain has emerged as an efficient paradigm for solving video recognition tasks. Due to the huge number of parameters and effective transferability of image models, performing full fine-tuning is less efficient and even unnecessary. Thus, recent research is shifting its focus toward parameter-efficient image-to-video adaptation. However, these adaptation strategies inevitably introduce extra computational costs to deal with the domain gap and temporal modeling in videos. In this paper, we present a new adaptation paradigm (ZeroI2V) to transfer the image transformers to video recognition tasks (i.e., introduce zero extra cost to the original models during inference). To achieve this goal, we present two core designs. First, to capture the dynamics in videos and reduce the difficulty of image-to-video adaptation, we exploit the flexibility of self-attention and introduce spatial-temporal dual-headed attention (STDHA). This approach efficiently endows the image transformers with temporal modeling capability at zero extra parameters and computation. Second, to handle the domain gap between images and videos, we propose a linear adaption strategy that utilizes lightweight densely placed linear adapters to fully transfer the frozen image models to video recognition. Thanks to the customized linear design, all newly added adapters could be easily merged with the original modules through structural reparameterization after training, enabling zero extra cost during inference. Extensive experiments on representative fully-supervised and few-shot video recognition benchmarks showcase that ZeroI2V can match or even outperform previous state-of-the-art methods while enjoying superior parameter and inference efficiency.
arxiv情報
著者 | Xinhao Li,Yuhan Zhu,Limin Wang |
発行日 | 2024-07-11 14:53:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google