DropMAE: Masked Autoencoders with Spatial-Attention Dropout for Tracking Tasks

要約

タイトル:DropMAE:トラッキングタスクのための空間アテンションドロップアウトを備えたマスキングオートエンコーダー

要約:
– この論文では、マスキングオートエンコーダー(MAE)の事前トレーニングを、ビジュアルオブジェクトトラッキング(VOT)やビデオオブジェクトセグメンテーション(VOS)などのマッチングベースのダウンストリームタスクに適用することを研究しています。
– MAEの単純な拡張は、ビデオのフレームパッチをランダムにマスクし、フレームピクセルを再構成することですが、この方法ではフレーム再構成のための時間的関係を無視し、空間的な情報に頼ってしまい、VOTやVOSのための最適な時間的マッチング表現にならないことがわかりました。
– これを解決するために、DropMAEを提案し、フレーム再構成に空間的アテンションドロップアウトを適応的に行い、ビデオの時間的対応学習を促進します。
– DropMAEは強力で効率的な時間的マッチング学習者であり、ImageNetベースのMAEよりも2倍速い事前トレーニング速度でマッチングベースのタスクのファインチューニング結果を改善することができることを示しました。
– また、プレトレーニングビデオのシーンの多様性よりもモーションの多様性がVOTやVOSのパフォーマンスを向上させるために重要であることも発見しました。
– 我々の事前トレーニングされたDropMAEモデルは、既存のViTベースのトラッカーに直接ロードしてファインチューニングすることができ、競争力の高いビデオトラッキングおよびセグメンテーションデータセットの9つのうち8つで新しい最高性能を記録しました。

要約(オリジナル)

In this paper, we study masked autoencoder (MAE) pretraining on videos for matching-based downstream tasks, including visual object tracking (VOT) and video object segmentation (VOS). A simple extension of MAE is to randomly mask out frame patches in videos and reconstruct the frame pixels. However, we find that this simple baseline heavily relies on spatial cues while ignoring temporal relations for frame reconstruction, thus leading to sub-optimal temporal matching representations for VOT and VOS. To alleviate this problem, we propose DropMAE, which adaptively performs spatial-attention dropout in the frame reconstruction to facilitate temporal correspondence learning in videos. We show that our DropMAE is a strong and efficient temporal matching learner, which achieves better finetuning results on matching-based tasks than the ImageNetbased MAE with 2X faster pre-training speed. Moreover, we also find that motion diversity in pre-training videos is more important than scene diversity for improving the performance on VOT and VOS. Our pre-trained DropMAE model can be directly loaded in existing ViT-based trackers for fine-tuning without further modifications. Notably, DropMAE sets new state-of-the-art performance on 8 out of 9 highly competitive video tracking and segmentation datasets. Our code and pre-trained models are available at https://github.com/jimmy-dq/DropMAE.git.

arxiv情報

著者 Qiangqiang Wu,Tianyu Yang,Ziquan Liu,Baoyuan Wu,Ying Shan,Antoni B. Chan
発行日 2023-04-07 02:55:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク