Understanding Masked Image Modeling via Learning Occlusion Invariant Feature

要約

近年、マスク画像モデリング(MIM)は自己教師付き視覚認識において大きな成功を収めている。しかし、MIMは再構成に基づくフレームワークであるため、コントラスト学習などの従来からよく研究されているシャムアプローチとは大きく異なり、MIMがどのように機能するかを理解することはまだ未解決の課題である。本論文では、新しい観点を提案する。MIMはオクルージョン不変な特徴を暗黙的に学習する。これは、他のシャム手法が他の不変性を学習するのに対して、類似している。MIMの定式化を等価なシャム式に緩和することで、MIM法は従来の手法と統一的な枠組みで解釈することができ、その中で、a) データ変換、すなわち、どの不変性を学習するか、b) 類似性測定のみが異なっている。さらに、MIMの代表例としてMAE (He et al.) を取り上げ、経験的にMIMモデルの成功は類似性関数の選択にあまり関係せず、マスク画像によって導入された学習済みのオクルージョン不変特徴であることを見出した–学習済み特徴があまり意味的でない可能性があっても、視覚変換器の好ましい初期化であることが判明した。この結果は、コンピュータビジョンの分野において、より強力な自己教師付き手法を開発する研究者の刺激となることを期待している。

要約(オリジナル)

Recently, Masked Image Modeling (MIM) achieves great success in self-supervised visual recognition. However, as a reconstruction-based framework, it is still an open question to understand how MIM works, since MIM appears very different from previous well-studied siamese approaches such as contrastive learning. In this paper, we propose a new viewpoint: MIM implicitly learns occlusion-invariant features, which is analogous to other siamese methods while the latter learns other invariance. By relaxing MIM formulation into an equivalent siamese form, MIM methods can be interpreted in a unified framework with conventional methods, among which only a) data transformations, i.e. what invariance to learn, and b) similarity measurements are different. Furthermore, taking MAE (He et al.) as a representative example of MIM, we empirically find the success of MIM models relates a little to the choice of similarity functions, but the learned occlusion invariant feature introduced by masked image — it turns out to be a favored initialization for vision transformers, even though the learned feature could be less semantic. We hope our findings could inspire researchers to develop more powerful self-supervised methods in computer vision community.

arxiv情報

著者 Xiangwen Kong,Xiangyu Zhang
発行日 2022-08-08 14:05:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク