要約
過去 1 年間で、マスクされた画像モデリング (MIM) が自己教師あり学習において大きな可能性を示していることが目撃されています。
MIM は、ユニバーサル バックボーン ビジョン トランスフォーマーの恩恵を受けて、画像のパッチの一部をマスキングしながら、欠落しているピクセルを回復しようとすることで、自己教師ありの視覚的表現を学習します。
これまでのほとんどの作業では、画像のパッチをランダムにマスクしていたため、視覚表現の学習に役立つセマンティック情報が十分に活用されていませんでした。
一方、バックボーンのサイズが大きいため、以前のほとんどの作品は事前トレーニングに多くの時間を費やさなければなりませんでした。
この論文では、上記の両方の問題を解決できる \textbf{Attention-driven Masking and Throwing Strategy} (AMT) を提案します。
最初に自己注意メカニズムを活用して、教師ありの方法を使用せずに、トレーニング プロセス中に画像のセマンティック情報を自動的に取得します。
マスキング戦略は、その情報に基づいて領域を選択的にマスキングすることができ、表現学習に役立ちます。
さらに、学習をより効率的にする冗長パッチスロー戦略が提案されています。
マスクされた画像モデリング用のプラグアンドプレイ モジュールとして、AMT は CIFAR-10/100、STL-10、Tiny ImageNet、および ImageNet-1K で MAE の線形プロービング精度を $2.9\% \sim 5.9\%$ 向上させます。
また、MAE と SimMIM の微調整精度に関して改善されたパフォーマンスが得られます。
さらに、この設計は、下流の検出およびセグメンテーション タスクでも優れたパフォーマンスを実現します。
要約(オリジナル)
It has been witnessed that masked image modeling (MIM) has shown a huge potential in self-supervised learning in the past year. Benefiting from the universal backbone vision transformer, MIM learns self-supervised visual representations through masking a part of patches of the image while attempting to recover the missing pixels. Most previous works mask patches of the image randomly, which underutilizes the semantic information that is beneficial to visual representation learning. On the other hand, due to the large size of the backbone, most previous works have to spend much time on pre-training. In this paper, we propose \textbf{Attention-driven Masking and Throwing Strategy} (AMT), which could solve both problems above. We first leverage the self-attention mechanism to obtain the semantic information of the image during the training process automatically without using any supervised methods. Masking strategy can be guided by that information to mask areas selectively, which is helpful for representation learning. Moreover, a redundant patch throwing strategy is proposed, which makes learning more efficient. As a plug-and-play module for masked image modeling, AMT improves the linear probing accuracy of MAE by $2.9\% \sim 5.9\%$ on CIFAR-10/100, STL-10, Tiny ImageNet, and ImageNet-1K, and obtains an improved performance with respect to fine-tuning accuracy of MAE and SimMIM. Moreover, this design also achieves superior performance on downstream detection and segmentation tasks.
arxiv情報
著者 | Jie Gui,Zhengqi Liu,Hao Luo |
発行日 | 2022-11-28 14:38:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google