要約
この論文では、Masked Autoencoders (MAE) をビデオから学習する時空間表現に概念的に単純に拡張する方法について説明します。
ビデオの時空パッチをランダムにマスクし、オートエンコーダーを学習してそれらをピクセル単位で再構築します。
興味深いことに、私たちの MAE メソッドは、時空への誘導バイアスがほとんどなく (パッチと位置の埋め込みを除く)、強力な表現を学習でき、時空間に依存しないランダム マスキングが最適であることを示しています。
最適なマスキング率は 90% (画像では 75%) と高く、この比率がデータの情報の冗長性に関連しているという仮説を支持しています。
高いマスキング率は大幅なスピードアップにつながります。たとえば、実時間で 4 倍以上、またはそれ以上になります。
バニラのビジョン トランスフォーマーを使用して、いくつかの挑戦的なビデオ データセットの競争結果を報告します。
MAE は、教師ありの事前トレーニングよりも大幅に優れていることがわかります。
さらに、キュレーションされていない実世界の Instagram データに関するトレーニングの有望な結果を報告します。
私たちの研究は、マスクされたオートエンコーディング (BERT、MAE など) の一般的なフレームワークが、最小限のドメイン知識で表現学習の統一された方法論になり得ることを示唆しています。
要約(オリジナル)
This paper studies a conceptually simple extension of Masked Autoencoders (MAE) to spatiotemporal representation learning from videos. We randomly mask out spacetime patches in videos and learn an autoencoder to reconstruct them in pixels. Interestingly, we show that our MAE method can learn strong representations with almost no inductive bias on spacetime (only except for patch and positional embeddings), and spacetime-agnostic random masking performs the best. We observe that the optimal masking ratio is as high as 90% (vs. 75% on images), supporting the hypothesis that this ratio is related to information redundancy of the data. A high masking ratio leads to a large speedup, e.g., > 4x in wall-clock time or even more. We report competitive results on several challenging video datasets using vanilla Vision Transformers. We observe that MAE can outperform supervised pre-training by large margins. We further report encouraging results of training on real-world, uncurated Instagram data. Our study suggests that the general framework of masked autoencoding (BERT, MAE, etc.) can be a unified methodology for representation learning with minimal domain knowledge.
arxiv情報
著者 | Christoph Feichtenhofer,Haoqi Fan,Yanghao Li,Kaiming He |
発行日 | 2022-10-21 09:16:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google