要約
視覚モデルの自己監視事前トレーニングのための統一された周波数領域ベースのアプローチであるマスク周波数モデリング(MFM)を紹介します。
この論文では、空間ドメインの入力埋め込みにマスクトークンをランダムに挿入する代わりに、視点を周波数ドメインにシフトします。
具体的には、MFMは最初に入力画像の周波数成分の一部をマスクアウトし、次に周波数スペクトルで欠落している周波数を予測します。
私たちの重要な洞察は、周波数領域でマスクされたコンポーネントを予測することは、空間的な冗長性が大きいため、空間領域でマスクされたパッチを予測するよりも、基礎となる画像パターンを明らかにするのに理想的であるということです。
私たちの調査結果は、マスクと予測戦略の適切な構成により、高周波成分内の構造情報と低周波対応物間の低レベルの統計の両方が、優れた表現を学習するのに役立つことを示唆しています。
MFMは、ViTとCNNの両方で、(i)追加のデータ、(ii)追加のモデル、(iii)マスクトークンを使用しなくても、単純な非シャムフレームワークが意味のある表現を学習できることを初めて示しました。
ImageNetといくつかの堅牢性ベンチマークの実験結果は、最近のマスクされた画像モデリングアプローチと比較したMFMの競争力のあるパフォーマンスと高度な堅牢性を示しています。
さらに、統一された周波数の観点から表現学習のための古典的な画像復元タスクの有効性を包括的に調査し、MFMアプローチとの興味深い関係を明らかにします。
プロジェクトページ:https://www.mmlab-ntu.com/project/mfm/index.html。
要約(オリジナル)
We present Masked Frequency Modeling (MFM), a unified frequency-domain-based approach for self-supervised pre-training of visual models. Instead of randomly inserting mask tokens to the input embeddings in the spatial domain, in this paper, we shift the perspective to the frequency domain. Specifically, MFM first masks out a portion of frequency components of the input image and then predicts the missing frequencies on the frequency spectrum. Our key insight is that predicting masked components in the frequency domain is more ideal to reveal underlying image patterns rather than predicting masked patches in the spatial domain, due to the heavy spatial redundancy. Our findings suggest that with the right configuration of mask-and-predict strategy, both the structural information within high-frequency components and the low-level statistics among low-frequency counterparts are useful in learning good representations. For the first time, MFM demonstrates that, for both ViT and CNN, a simple non-Siamese framework can learn meaningful representations even using none of the following: (i) extra data, (ii) extra model, (iii) mask token. Experimental results on ImageNet and several robustness benchmarks show the competitive performance and advanced robustness of MFM compared with recent masked image modeling approaches. Furthermore, we also comprehensively investigate the effectiveness of classical image restoration tasks for representation learning from a unified frequency perspective and reveal their intriguing relations with our MFM approach. Project page: https://www.mmlab-ntu.com/project/mfm/index.html.
arxiv情報
著者 | Jiahao Xie,Wei Li,Xiaohang Zhan,Ziwei Liu,Yew Soon Ong,Chen Change Loy |
発行日 | 2022-06-15 17:58:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google