AdaMAE: Adaptive Masking for Efficient Spatiotemporal Learning with Masked Autoencoders

要約

マスク オートエンコーダー (MAE) は、可視データのトークンからマスクされた入力データを再構築することにより、画像、テキスト、オーディオ、ビデオなどの一般化可能な表現を学習します。
ビデオに対する現在の MAE アプローチは、ランダムなパッチ、チューブ、またはフレームベースのマスキング戦略に依存して、これらのトークンを選択します。
このホワイトペーパーでは、エンドツーエンドでトレーニング可能な MAE の適応型マスキング戦略である AdaMAE を提案します。
私たちの適応マスキング戦略は、補助サンプリング ネットワークを使用して、セマンティック コンテキストに基づいて可視トークンをサンプリングします。
このネットワークは、時空間パッチ トークンのカテゴリ分布を推定します。
予想される再構成エラーを増加させるトークンは、強化学習のポリシー勾配アルゴリズムによって動機付けられ、目に見えるトークンとして報酬を受けて選択されます。
AdaMAE が高時空間情報領域からより多くのトークンをサンプリングすることを示します。これにより、トークンの 95% をマスクできるため、メモリ要件が低くなり、事前トレーニングが高速になります。
Something-Something v2 (SSv2) データセットでアブレーション研究を実施し、適応サンプリング アプローチの有効性を実証し、SSv2 と Kinetics-400 でトップ 1 精度で 70.0% と 81.7% の最先端の結果を報告します。
ViT-Base バックボーンと 800 の事前トレーニング エポックを備えたアクション分類データセット。

要約(オリジナル)

Masked Autoencoders (MAEs) learn generalizable representations for image, text, audio, video, etc., by reconstructing masked input data from tokens of the visible data. Current MAE approaches for videos rely on random patch, tube, or frame-based masking strategies to select these tokens. This paper proposes AdaMAE, an adaptive masking strategy for MAEs that is end-to-end trainable. Our adaptive masking strategy samples visible tokens based on the semantic context using an auxiliary sampling network. This network estimates a categorical distribution over spacetime-patch tokens. The tokens that increase the expected reconstruction error are rewarded and selected as visible tokens, motivated by the policy gradient algorithm in reinforcement learning. We show that AdaMAE samples more tokens from the high spatiotemporal information regions, thereby allowing us to mask 95% of tokens, resulting in lower memory requirements and faster pre-training. We conduct ablation studies on the Something-Something v2 (SSv2) dataset to demonstrate the efficacy of our adaptive sampling approach and report state-of-the-art results of 70.0% and 81.7% in top-1 accuracy on SSv2 and Kinetics-400 action classification datasets with a ViT-Base backbone and 800 pre-training epochs.

arxiv情報

著者 Wele Gedara Chaminda Bandara,Naman Patel,Ali Gholami,Mehdi Nikkhah,Motilal Agrawal,Vishal M. Patel
発行日 2022-11-16 18:59:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク