要約
最近の対照的な言語の画像事前トレーニングにより、高度に伝達可能で堅牢な画像表現の学習が可能になりました。
ただし、最小限の監視でこれらのモデルをビデオ ドメインに適応させることは未解決の問題のままです。
私たちは、言語に関連付けられた自己教師あり学習を使用して画像 CLIP モデルをビデオ ドメインに適応させるという、その方向への簡単なステップを検討します。
時間モデリング用に変更されたバックボーンは、アクション コンセプト空間で動作するトレーニング目標を備えた自己蒸留設定の下でトレーニングされます。
関連するテキスト プロンプトを使用して言語エンコーダーから抽出されたさまざまなアクション概念の特徴ベクトルがこの空間を構築します。
コンセプトの蒸留とコンセプトの調整という 2 つのトレーニング目標を導入します。これらは、アクションとその属性の間の関係を強化しながら、元の表現の一般性を保持します。
私たちのアプローチは、3 つのアクション認識ベンチマークにおけるゼロショットおよび線形プローブのパフォーマンスを向上させます。
要約(オリジナル)
Recent contrastive language image pre-training has led to learning highly transferable and robust image representations. However, adapting these models to video domains with minimal supervision remains an open problem. We explore a simple step in that direction, using language tied self-supervised learning to adapt an image CLIP model to the video domain. A backbone modified for temporal modeling is trained under self-distillation settings with train objectives operating in an action concept space. Feature vectors of various action concepts extracted from a language encoder using relevant textual prompts construct this space. We introduce two train objectives, concept distillation and concept alignment, that retain generality of original representations while enforcing relations between actions and their attributes. Our approach improves zero-shot and linear probing performance on three action recognition benchmarks.
arxiv情報
著者 | Kanchana Ranasinghe,Michael Ryoo |
発行日 | 2023-07-20 14:47:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google