要約
最近、大規模な事前訓練を受けたビジョン言語モデル(クリップなど)は、強力な代表能力のおかげで大きな注意を払っています。
これは、研究者がこれらの大規模な事前訓練を受けたモデルから他のタスク固有のモデル、例えばビデオアクション認識(VAR)モデルに、特にサイドネットワークを活用してパラメーター効率の高い微調整(PEFT)の効率を高めることを促します。
ただし、VARの現在の転送アプローチは、アクション認識モデル自体の時間モデリング機能を活用する代わりに、凍結した知識を大規模な事前訓練モデルからアクション認識ネットワークに最小限のコストで直接転送する傾向があります。
したがって、このホワイトペーパーでは、凍結パラメーターモデルのバックプロパゲーションを回避して、知識の転送と時間モデリングのバランスをとるために、新しいメモリ効率の高い時間的差異ネットワーク(TDS-Clip)を提案します。
具体的には、モデルのグローバルな時間モデリング機能を強化するために、動きの特徴の局所的な時間的違いを効果的にキャプチャできるように、時間差アダプター(TD-Adapter)を導入します。
さらに、サイドモーションエンハンスメントアダプター(SME-ADAPTER)を設計して、提案されたサイドネットワークをビデオで効率的に学習するためにガイドし、それにより、サイドネットワークのモーション情報をキャプチャして学習する能力を向上させました。
広範な実験は、V1&V2とKinetics-400を含む3つのベンチマークデータセットで行われます。
実験結果は、私たちの方法がビデオアクション認識タスクで競争力のあるパフォーマンスを達成することを示しています。
要約(オリジナル)
Recently, large-scale pre-trained vision-language models (e.g., CLIP), have garnered significant attention thanks to their powerful representative capabilities. This inspires researchers in transferring the knowledge from these large pre-trained models to other task-specific models, e.g., Video Action Recognition (VAR) models, via particularly leveraging side networks to enhance the efficiency of parameter-efficient fine-tuning (PEFT). However, current transferring approaches in VAR tend to directly transfer the frozen knowledge from large pre-trained models to action recognition networks with minimal cost, instead of exploiting the temporal modeling capabilities of the action recognition models themselves. Therefore, in this paper, we propose a novel memory-efficient Temporal Difference Side Network (TDS-CLIP) to balance knowledge transferring and temporal modeling, avoiding backpropagation in frozen parameter models. Specifically, we introduce a Temporal Difference Adapter (TD-Adapter), which can effectively capture local temporal differences in motion features to strengthen the model’s global temporal modeling capabilities. Furthermore, we designed a Side Motion Enhancement Adapter (SME-Adapter) to guide the proposed side network in efficiently learning the rich motion information in videos, thereby improving the side network’s ability to capture and learn motion information. Extensive experiments are conducted on three benchmark datasets, including Something-Something V1&V2, and Kinetics-400. Experimental results show that our method achieves competitive performance in video action recognition tasks.
arxiv情報
著者 | Bin Wang,Wentong Li,Wenqian Wang,Mingliang Gao,Runmin Cong,Wei Zhang |
発行日 | 2025-06-12 12:37:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google