要約
テキストビデオの取得は、テキスト クエリに最も関連性の高いビデオを見つけるための重要なマルチモーダル タスクです。
CLIP のような事前トレーニング済みモデルは、この分野で素晴らしい可能性を示していますが、モデル サイズの増大に伴うこれらのモデルを完全に微調整するコストの上昇が引き続き問題を引き起こしています。
この課題に対処するための代替手段として、即時チューニングが登場しました。
しかし、既存の作品は、事前トレーニングされた画像テキスト モデルを下流のビデオ テキスト タスクに適用するときに、依然として 2 つの問題に直面しています。(1) ビジュアル エンコーダーはフレーム レベルの特徴しかエンコードできず、グローバル レベルの一般的なビデオ情報を抽出できません。
(2) ビジュアルエンコーダとテキストエンコーダに別々のプロンプトを装備しても、ビジュアルとテキストのモダリティギャップを軽減できませんでした。
この目的を達成するために、グローバルとローカルのビデオ アテンションを備えたクロスモーダルな動的プロンプト チューニング手法である DGL を提案します。
以前のプロンプト調整方法とは対照的に、共有潜在空間を使用して、モーダル間の相互作用を促進するローカルレベルのテキストおよびフレームプロンプトを生成します。
さらに、迅速な調整の観点からグローバルビデオ情報をキャプチャするために、グローバル-ローカルアテンションメカニズムでビデオをモデリングすることを提案します。
広範な実験により、わずか 0.67% のパラメーターが調整された場合、クロスモーダル プロンプト チューニング戦略 DGL は、MSR-VTT、VATEX、LSMDC、および ActivityNet データセットに対する完全な微調整方法よりも優れたパフォーマンスを発揮するか、同等であることが明らかになりました。
コードは https://github.com/knightyxp/DGL で入手できます。
要約(オリジナル)
Text-video retrieval is a critical multi-modal task to find the most relevant video for a text query. Although pretrained models like CLIP have demonstrated impressive potential in this area, the rising cost of fully finetuning these models due to increasing model size continues to pose a problem. To address this challenge, prompt tuning has emerged as an alternative. However, existing works still face two problems when adapting pretrained image-text models to downstream video-text tasks: (1) The visual encoder could only encode frame-level features and failed to extract global-level general video information. (2) Equipping the visual and text encoder with separated prompts failed to mitigate the visual-text modality gap. To this end, we propose DGL, a cross-modal Dynamic prompt tuning method with Global-Local video attention. In contrast to previous prompt tuning methods, we employ the shared latent space to generate local-level text and frame prompts that encourage inter-modal interaction. Furthermore, we propose modeling video in a global-local attention mechanism to capture global video information from the perspective of prompt tuning. Extensive experiments reveal that when only 0.67% parameters are tuned, our cross-modal prompt tuning strategy DGL outperforms or is comparable to fully finetuning methods on MSR-VTT, VATEX, LSMDC, and ActivityNet datasets. Code will be available at https://github.com/knightyxp/DGL
arxiv情報
著者 | Xiangpeng Yang,Linchao Zhu,Xiaohan Wang,Yi Yang |
発行日 | 2024-01-19 09:58:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google