Revisiting Temporal Modeling for CLIP-based Image-to-Video Knowledge Transferring

要約

CLIP などの画像とテキストの事前トレーニング済みモデルは、大規模な画像とテキストのデータ ペアから学習された印象的な一般的なマルチモーダルの知識を示しているため、ビデオ ドメインでの視覚的表現の学習を改善する可能性について注目を集めています。
このホワイト ペーパーでは、CLIP モデルに基づいて、画像からビデオへの知識転送のコンテキストで時間モデリングを再検討します。これは、画像とテキストの事前トレーニング済みモデルをビデオ ドメインに拡張するための重要なポイントです。
現在のテンポラル モデリング メカニズムは、高レベルのセマンティック タスク (検索など) または低レベルの視覚パターン ドミナント タスク (認識など) に合わせて調整されており、2 つのケースを同時に処理できないことがわかりました。
主な困難は、CLIP モデルの高レベルと低レベルの両方の知識を利用しながら、一時的な依存関係をモデル化することにあります。
この問題に取り組むために、CLIP モデルをさまざまなビデオ タスクに拡張するシンプルで効果的な時間モデリング メカニズムである Spatial-Temporal Auxiliary Network (STAN) を紹介します。
具体的には、低レベルと高レベルの両方の知識伝達を実現するために、STAN はマルチレベルの CLIP 機能を時空間的にコンテキスト化できる分解された時空間モジュールを備えたブランチ構造を採用しています。
ビデオ テキスト検索とビデオ認識の 2 つの代表的なビデオ タスクで手法を評価します。
広範な実験により、MSR-VTT、DiDeMo、LSMDC、MSVD、Kinetics-400、Something-Something-V2 などのさまざまなデータセットに対する最先端の方法に対するモデルの優位性が実証されています。
コードは https://github.com/farewellthree/STAN で入手できます

要約(オリジナル)

Image-text pretrained models, e.g., CLIP, have shown impressive general multi-modal knowledge learned from large-scale image-text data pairs, thus attracting increasing attention for their potential to improve visual representation learning in the video domain. In this paper, based on the CLIP model, we revisit temporal modeling in the context of image-to-video knowledge transferring, which is the key point for extending image-text pretrained models to the video domain. We find that current temporal modeling mechanisms are tailored to either high-level semantic-dominant tasks (e.g., retrieval) or low-level visual pattern-dominant tasks (e.g., recognition), and fail to work on the two cases simultaneously. The key difficulty lies in modeling temporal dependency while taking advantage of both high-level and low-level knowledge in CLIP model. To tackle this problem, we present Spatial-Temporal Auxiliary Network (STAN) — a simple and effective temporal modeling mechanism extending CLIP model to diverse video tasks. Specifically, to realize both low-level and high-level knowledge transferring, STAN adopts a branch structure with decomposed spatial-temporal modules that enable multi-level CLIP features to be spatial-temporally contextualized. We evaluate our method on two representative video tasks: Video-Text Retrieval and Video Recognition. Extensive experiments demonstrate the superiority of our model over the state-of-the-art methods on various datasets, including MSR-VTT, DiDeMo, LSMDC, MSVD, Kinetics-400, and Something-Something-V2. Codes will be available at https://github.com/farewellthree/STAN

arxiv情報

著者 Ruyang Liu,Jingjia Huang,Ge Li,Jiashi Feng,Xinglong Wu,Thomas H. Li
発行日 2023-01-26 14:12:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク