VicTR: Video-conditioned Text Representations for Activity Recognition


タイトル: VicTR:アクティビティ認識のためのビデオに条件付けられたテキスト表現


– Vision-Language モデルは、ペア画像テキストデータが豊富にあるため、イメージ・ドメインでもゼロショット設定でも強力な性能を発揮しています。
– しかし、ビデオの場合、このような対応するデータは豊富ではありません。
– それで、通常は画像-テキストの事前学習モデルをビデオ-ドメインに適応させることで、ビデオ-テキストモデルを設計します。
– だが、そのようなレシピは、しばしばテキスト埋め込みを変更せずに、または捨てて、ビジュアル埋め込みに時間情報を追加しています(つまり、画像 → ビデオ)。
– この論文では、ビデオ-テキストモデルは視覚情報よりもテキスト情報を増強することで、より効果的であることを主張しています。
– したがって、著者たちは、映像に合わせて生成された「ビデオ条件付きテキスト」埋め込みを提案する VicTR を開発しています。
– さらに、オブジェクトやシーン情報などの自由に利用可能な意味情報を活用することができます。
– 著者たちは、Kinetics-400、Charades、HMDB-51、UCF-101などの多数のベンチマークで実験を行い、ビデオ-テキストモデルに基づくアクティビティ認識の競争力あるパフォーマンスを示しました。


Vision-Language models have shown strong performance in the image-domain — even in zero-shot settings, thanks to the availability of large amount of pretraining data (i.e., paired image-text examples). However for videos, such paired data is not as abundant. Thus, video-text models are usually designed by adapting pretrained image-text models to video-domain, instead of training from scratch. All such recipes rely on augmenting visual embeddings with temporal information (i.e., image -> video), often keeping text embeddings unchanged or even being discarded. In this paper, we argue that such adapted video-text models can benefit more by augmenting text rather than visual information. We propose VicTR, which jointly-optimizes text and video tokens, generating ‘Video-conditioned Text’ embeddings. Our method can further make use of freely-available semantic information, in the form of visually-grounded auxiliary text (e.g., object or scene information). We conduct experiments on multiple benchmarks including supervised (Kinetics-400, Charades), zero-shot and few-shot (HMDB-51, UCF-101) settings, showing competitive performance on activity recognition based on video-text models.


著者 Kumara Kahatapitiya,Anurag Arnab,Arsha Nagrani,Michael S. Ryoo
発行日 2023-04-05 16:30:36+00:00
カテゴリー: cs.CV パーマリンク