要約
タイトル:Vita-CLIP:ビデオとテキスト適応型CLIPにおけるマルチモーダル・プロンプティング
要約:
– CLIPのようなコントラスティブ画像-テキスト事前学習モデルをビデオ分類に採用することが、コスト効率が良く競争力のあるパフォーマンスを持つため注目されている。
– しかし、最近のこの分野の取り組みでは、トレードオフが生じている。
– 事前学習モデルをファインチューニングして強力な監視付きパフォーマンスを実現すると、低いゼロショット汎化が生じる。
– 同様に、バックボーンを凍結してゼロショット能力を保持することで監視付きの精度が大幅に低下する。
– このため、文献における最近の取り組みでは、監視付きとゼロショットの動作認識のために別々のモデルをトレーニングすることが一般的である。
– 本研究では、単一の統合トレーニング下で監視付きとゼロショットのパフォーマンスをバランスさせるマルチモーダル・プロンプト学習スキームを提案。
– ビジョン側での促進アプローチには、3つの側面が含まれる:1)データ分布をモデル化するためのグローバルな映像レベルのプロンプト、2)フレーム単位の識別的な調整を提供するためのローカルなフレームレベルのプロンプト、3)簡潔なビデオ表現を抽出するためのサマリー・プロンプト。
– さらに、テキスト側でもプロンプティングスキームを定義して、テキストコンテキストを増強する。
– このプロンプティングスキームにより、Kinetics-600、HMDB51、UCF101のゼロショットパフォーマンスで最新のレベルを達成しつつ、監視付きの設定でも競争力を維持できる。
– 事前学習バックボーンを凍結することで、最適化するパラメータ数を大幅に低減し、既存の一般的な表現を維持することで強力なゼロショットパフォーマンスを実現することができる。
– コード/モデルはhttps://github.com/TalalWasim/Vita-CLIPでリリースされる。
要約(オリジナル)
Adopting contrastive image-text pretrained models like CLIP towards video classification has gained attention due to its cost-effectiveness and competitive performance. However, recent works in this area face a trade-off. Finetuning the pretrained model to achieve strong supervised performance results in low zero-shot generalization. Similarly, freezing the backbone to retain zero-shot capability causes significant drop in supervised accuracy. Because of this, recent works in literature typically train separate models for supervised and zero-shot action recognition. In this work, we propose a multimodal prompt learning scheme that works to balance the supervised and zero-shot performance under a single unified training. Our prompting approach on the vision side caters for three aspects: 1) Global video-level prompts to model the data distribution; 2) Local frame-level prompts to provide per-frame discriminative conditioning; and 3) a summary prompt to extract a condensed video representation. Additionally, we define a prompting scheme on the text side to augment the textual context. Through this prompting scheme, we can achieve state-of-the-art zero-shot performance on Kinetics-600, HMDB51 and UCF101 while remaining competitive in the supervised setting. By keeping the pretrained backbone frozen, we optimize a much lower number of parameters and retain the existing general representation which helps achieve the strong zero-shot performance. Our codes/models are released at https://github.com/TalalWasim/Vita-CLIP.
arxiv情報
著者 | Syed Talal Wasim,Muzammal Naseer,Salman Khan,Fahad Shahbaz Khan,Mubarak Shah |
発行日 | 2023-04-06 18:00:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI