要約
最近のビデオ・マスキング・オートエンコーダ(MAE)の研究では、顕著性に着目したマスキング・アルゴリズムの改良が行われている。これらの研究では、最も顕著な領域をマスクするために、動きのような視覚的手がかりを活用している。しかし、このような視覚的手がかりの頑健性は、入力動画が基礎となる仮定と一致する頻度に依存する。一方、自然言語記述は、モダリティ固有の仮定を必要とせずに、暗黙的に顕著性を捉える、映像の情報密度の高い表現であり、映像のMAEについてはまだ研究されていない。この目的のために、我々は、対となるキャプションに最も対応するビデオ領域をマスクする、新しいテキストガイドマスキングアルゴリズム(TGM)を導入する。顕著性のための明示的な視覚的手がかりを利用することなく、我々のTGMは、動き誘導マスキングのような最先端のマスキングアルゴリズムと競合する。マスクされた再構成のために自然言語のセマンティクスの恩恵をさらに受けるために、我々は次に、MAEとマスクされたビデオとテキストの対比学習の統合フレームワークを紹介する。既存のマスキングアルゴリズムにおいて、MAEとマスキングされたビデオテキスト対比学習を統合することで、様々なビデオ認識タスクにおいて、特に線形プローブにおいて、純粋なMAEと比較して下流の性能が向上することを示す。この統一されたフレームワークの中で、我々のTGMは5つの行動認識と1つの自我中心的データセットで最高の相対性能を達成し、マスクされたビデオモデリングにおける自然言語の補完的性質を強調する。
要約(オリジナル)
Recent video masked autoencoder (MAE) works have designed improved masking algorithms focused on saliency. These works leverage visual cues such as motion to mask the most salient regions. However, the robustness of such visual cues depends on how often input videos match underlying assumptions. On the other hand, natural language description is an information dense representation of video that implicitly captures saliency without requiring modality-specific assumptions, and has not been explored yet for video MAE. To this end, we introduce a novel text-guided masking algorithm (TGM) that masks the video regions with highest correspondence to paired captions. Without leveraging any explicit visual cues for saliency, our TGM is competitive with state-of-the-art masking algorithms such as motion-guided masking. To further benefit from the semantics of natural language for masked reconstruction, we next introduce a unified framework for joint MAE and masked video-text contrastive learning. We show that across existing masking algorithms, unifying MAE and masked video-text contrastive learning improves downstream performance compared to pure MAE on a variety of video recognition tasks, especially for linear probe. Within this unified framework, our TGM achieves the best relative performance on five action recognition and one egocentric datasets, highlighting the complementary nature of natural language for masked video modeling.
arxiv情報
著者 | David Fan,Jue Wang,Shuai Liao,Zhikang Zhang,Vimal Bhat,Xinyu Li |
発行日 | 2024-08-01 17:58:19+00:00 |
arxivサイト | arxiv_id(pdf) |