Motion-Guided Masking for Spatiotemporal Representation Learning

要約

最近のいくつかの研究では、ランダム マスキングを使用してイメージ マスク オートエンコーダ (MAE) をビデオ ドメインに直接拡張し、有望な結果を達成しています。
ただし、画像とは異なり、ビデオを理解するには空間情報と時間情報の両方が重要です。
これは、画像 MAE から継承されたランダム マスキング戦略がビデオ MAE に対してあまり効果的ではないことを示唆しています。
これにより、ビデオの顕著性をより効率的に利用できる新しいマスキング アルゴリズムの設計が促進されます。
具体的には、モーション ベクトルを利用して時間の経過とともに各マスクの位置をガイドするモーション ガイド付きマスキング アルゴリズム (MGM) を提案します。
重要なことは、これらのモーションベースの対応関係は、ビデオの圧縮形式で保存された情報から直接取得できるため、この方法が効率的でスケーラブルになります。
2 つの挑戦的な大規模ビデオ ベンチマーク (Kinetics-400 と Something-Something V2) では、ビデオ MAE に MGM を装備し、以前の最先端の手法と比較して最大 +$1.3\%$ の改善を達成しました。
さらに、当社の MGM は、最大 $66\%$ 少ないトレーニング エポックを使用して、以前のビデオ MAE と同等のパフォーマンスを実現します。
最後に、MGM が UCF101、HMDB51、および Diving48 データセットに対する下流の転移学習およびドメイン適応タスクをより適切に一般化し、ベースライン手法と比較して最大 +$4.9\%$ の改善を達成したことを示します。

要約(オリジナル)

Several recent works have directly extended the image masked autoencoder (MAE) with random masking into video domain, achieving promising results. However, unlike images, both spatial and temporal information are important for video understanding. This suggests that the random masking strategy that is inherited from the image MAE is less effective for video MAE. This motivates the design of a novel masking algorithm that can more efficiently make use of video saliency. Specifically, we propose a motion-guided masking algorithm (MGM) which leverages motion vectors to guide the position of each mask over time. Crucially, these motion-based correspondences can be directly obtained from information stored in the compressed format of the video, which makes our method efficient and scalable. On two challenging large-scale video benchmarks (Kinetics-400 and Something-Something V2), we equip video MAE with our MGM and achieve up to +$1.3\%$ improvement compared to previous state-of-the-art methods. Additionally, our MGM achieves equivalent performance to previous video MAE using up to $66\%$ fewer training epochs. Lastly, we show that MGM generalizes better to downstream transfer learning and domain adaptation tasks on the UCF101, HMDB51, and Diving48 datasets, achieving up to +$4.9\%$ improvement compared to baseline methods.

arxiv情報

著者 David Fan,Jue Wang,Shuai Liao,Yi Zhu,Vimal Bhat,Hector Santos-Villalobos,Rohith MV,Xinyu Li
発行日 2023-08-24 17:58:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク