要約
マスク イメージ モデリング (MIM) は、主要な自己教師あり学習戦略となっています。
Masked Autoencoder (MAE) などの MIM は、エンコーダーが処理する入力トークンをランダムにマスクし、デコーダーがマスクされたトークンを入力に再構築することで、強力な表現を学習します。
ただし、MIM の事前トレーニングされたエンコーダーは、マスクされたトークンのみを回帰することだけに MIM が重点を置いているため、注意力の持続時間が限られていることが多く、エンコーダーのより広範なコンテキスト学習が妨げられる可能性があります。
この制限に対処するために、マスクされていないトークンをトレーニング プロセスに明示的に組み込むことで MIM を改善しました。
具体的には、私たちの方法では、エンコーダーがより広範なコンテキストの監視から学習できるようになり、デコーダーがマスクされたトークンを再構築している間に、マスクされていないトークンがより広範なコンテキストを経験できるようになります。
したがって、エンコードされたマスクされていないトークンには広範なコンテキスト情報が装備されており、マスクされたトークンが MIM 用に強化されたマスクされていないトークンを活用できるようになります。
その結果、私たちの単純な解決策は、ImageNet-1K 上の ViT-B で 0.6%p ゲインで 84.2% のトップ 1 精度を達成することで、より多くの識別表現をトレーニングすることが明らかになりました。
特異値スペクトルと注意力の分析によって証明されるように、成功の原因は強化された事前トレーニング方法によるものであると考えています。
最後に、私たちのモデルは、下流のセマンティック セグメンテーションと詳細な視覚分類タスクで大幅なパフォーマンス向上を達成します。
そして多様な堅牢な評価指標についても。
コードは https://github.com/naver-ai/lut で入手できます。
要約(オリジナル)
Masked image modeling (MIM) has become a leading self-supervised learning strategy. MIMs such as Masked Autoencoder (MAE) learn strong representations by randomly masking input tokens for the encoder to process, with the decoder reconstructing the masked tokens to the input. However, MIM pre-trained encoders often exhibit a limited attention span, attributed to MIM’s sole focus on regressing masked tokens only, which may impede the encoder’s broader context learning. To tackle the limitation, we improve MIM by explicitly incorporating unmasked tokens into the training process. Specifically, our method enables the encoder to learn from broader context supervision, allowing unmasked tokens to experience broader contexts while the decoder reconstructs masked tokens. Thus, the encoded unmasked tokens are equipped with extensive contextual information, empowering masked tokens to leverage the enhanced unmasked tokens for MIM. As a result, our simple remedy trains more discriminative representations revealed by achieving 84.2% top-1 accuracy with ViT-B on ImageNet-1K with 0.6%p gain. We attribute the success to the enhanced pre-training method, as evidenced by the singular value spectrum and attention analyses. Finally, our models achieve significant performance gains at the downstream semantic segmentation and fine-grained visual classification tasks; and on diverse robust evaluation metrics. Code is available at https://github.com/naver-ai/lut
arxiv情報
著者 | Taekyung Kim,Sanghyuk Chun,Byeongho Heo,Dongyoon Han |
発行日 | 2024-04-24 00:59:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google