Extreme Masking for Learning Instance and Distributed Visual Representations

要約

本論文では、個々のトークンに対する分散表現と全体的なインスタンス表現を同時に学習するためのスケーラブルなアプローチを紹介する。分散されたトークンを表現するために自己注意ブロックを用い、その後に全体的なインスタンスを集約するために相互注意ブロックを用いる。本アプローチの中核は、監視のためのデータ補強として、非常に大きなトークン・マスキング(75%~90%)を用いることである。我々のモデルはExtreMAと名付けられ、マスクされていない部分集合からのインスタンス表現がそのままの入力からのインスタンス表現を予測するために学習される、単純なBYOLアプローチに従う。学習は、不変性を奨励する代わりに、インスタンスの情報的な変化を捉えることをモデルに要求する。本論文は3つの貢献をする。1) ランダムマスキングは、一般化可能な注意表現を学習するための強力かつ計算効率の良いデータ補強である。2) インスタンスごとに複数のサンプリングを行うことで、極端なマスキングは学習を大幅に高速化し、より多くのデータを欲するようになる。3) 分散表現は、マスクされたモデリングにおけるトークンごとのスーパービジョンとは異なり、インスタンスのスーパービジョンだけから学習することができる。

要約(オリジナル)

The paper presents a scalable approach for learning distributed representations over individual tokens and a holistic instance representation simultaneously. We use self-attention blocks to represent distributed tokens, followed by cross-attention blocks to aggregate the holistic instance. The core of the approach is the use of extremely large token masking (75%-90%) as the data augmentation for supervision. Our model, named ExtreMA, follows the plain BYOL approach where the instance representation from the unmasked subset is trained to predict that from the intact input. Learning requires the model to capture informative variations in an instance, instead of encouraging invariances. The paper makes three contributions: 1) Random masking is a strong and computationally efficient data augmentation for learning generalizable attention representations. 2) With multiple sampling per instance, extreme masking greatly speeds up learning and hungers for more data. 3) Distributed representations can be learned from the instance supervision alone, unlike per-token supervisions in masked modeling.

arxiv情報

著者 Zhirong Wu,Zihang Lai,Xiao Sun,Stephen Lin
発行日 2022-06-09 17:59:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク