要約
ビデオの理解は、近年、顕著な改善を示しており、大規模な標識データセットの可用性に大きく依存しています。
視覚言語モデルの最近の進歩は、特に対照的な前oringに基づいて、ゼロショットタスクの顕著な一般化を示しており、ラベル付きデータセットへのこの依存を克服するのに役立ちます。
ビデオに対するこのようなモデルの適応は、通常、ビデオデータに応えるためにビジョン言語モデルのアーキテクチャを変更することを伴います。
ただし、このような適応はほとんど計算的に集中的であり、時間モデリングと闘っているため、これは些細なことではありません。
コアクリップアーキテクチャを変更せずに一時的な視覚プロンプトを活用するクリップの適応であるTP-Clipを提示します。
これにより、一般化能力が維持されます。
TP-Clipは、クリップアーキテクチャに効率的に統合され、ビデオデータの事前に訓練された機能を活用します。
さまざまなデータセットにわたる広範な実験は、ゼロショットと少数のショット学習での有効性を示し、パラメーターが少なく、計算効率を備えた既存のアプローチを上回ります。
特に、最近の最先端と比較して、1/3のGFLOPSと1/28の調整可能なパラメーターの数だけを使用し、タスクとデータセットに応じて最大15.8%上回ることがあります。
要約(オリジナル)
Video understanding has shown remarkable improvements in recent years, largely dependent on the availability of large scaled labeled datasets. Recent advancements in visual-language models, especially based on contrastive pretraining, have shown remarkable generalization in zero-shot tasks, helping to overcome this dependence on labeled datasets. Adaptations of such models for videos, typically involve modifying the architecture of vision-language models to cater to video data. However, this is not trivial, since such adaptations are mostly computationally intensive and struggle with temporal modeling. We present TP-CLIP, an adaptation of CLIP that leverages temporal visual prompting for temporal adaptation without modifying the core CLIP architecture. This preserves its generalization abilities. TP-CLIP efficiently integrates into the CLIP architecture, leveraging its pre-trained capabilities for video data. Extensive experiments across various datasets demonstrate its efficacy in zero-shot and few-shot learning, outperforming existing approaches with fewer parameters and computational efficiency. In particular, we use just 1/3 the GFLOPs and 1/28 the number of tuneable parameters in comparison to recent state-of-the-art and still outperform it by up to 15.8% depending on the task and dataset.
arxiv情報
著者 | Shreyank N Gowda,Boyan Gao,Xiao Gu,Xiaobo Jin |
発行日 | 2025-04-02 16:50:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google