Masked Frequency Modeling for Self-Supervised Visual Pre-Training

要約

タイトル:自己教育用視覚プリトレーニングのためのマスクされた周波数モデリング
要約:
– MFM(マスクされた周波数モデル)は、視覚モデルの自己教育用の周波数領域ベースのアプローチである。
– 本研究では、空間ドメインの入力埋め込みにランダムにマスクトークンを挿入するのではなく、視点を周波数領域にシフトさせる。
– 具体的には、MFMは、入力画像の一部の周波数成分をマスクし、周波数スペクトル上で欠落している周波数を予測する。
– 予測される masked components は、masked patchesよりも、空間冗長性が高いため、潜在的な画像パターンを明らかにするのにより適している。
– MFMにより、ViTとCNNの両方について、次のいずれも使用しなくても、単純な非-Siameseフレームワークを使用して意味のある表現を学習できることが示された: (i) 追加のデータ、(ii) 追加のモデル、(iii) マスクトークン。
– 画像分類や意味的セグメンテーション、さらにはいくつかの堅牢性ベンチマークにおける実験結果は、最近のマスクされたイメージモデリング手法と比較して、MFMの競争力の高いパフォーマンスと高度な堅牢性を示している。
– さらに、MFMアプローチとの興味深い関係を明らかにするために、古典的な画像復元タスクの有効性を統一された周波数視点から包括的に調査している。

要約(オリジナル)

We present Masked Frequency Modeling (MFM), a unified frequency-domain-based approach for self-supervised pre-training of visual models. Instead of randomly inserting mask tokens to the input embeddings in the spatial domain, in this paper, we shift the perspective to the frequency domain. Specifically, MFM first masks out a portion of frequency components of the input image and then predicts the missing frequencies on the frequency spectrum. Our key insight is that predicting masked components in the frequency domain is more ideal to reveal underlying image patterns rather than predicting masked patches in the spatial domain, due to the heavy spatial redundancy. Our findings suggest that with the right configuration of mask-and-predict strategy, both the structural information within high-frequency components and the low-level statistics among low-frequency counterparts are useful in learning good representations. For the first time, MFM demonstrates that, for both ViT and CNN, a simple non-Siamese framework can learn meaningful representations even using none of the following: (i) extra data, (ii) extra model, (iii) mask token. Experimental results on image classification and semantic segmentation, as well as several robustness benchmarks show the competitive performance and advanced robustness of MFM compared with recent masked image modeling approaches. Furthermore, we also comprehensively investigate the effectiveness of classical image restoration tasks for representation learning from a unified frequency perspective and reveal their intriguing relations with our MFM approach.

arxiv情報

著者 Jiahao Xie,Wei Li,Xiaohang Zhan,Ziwei Liu,Yew Soon Ong,Chen Change Loy
発行日 2023-04-25 17:29:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV, cs.LG パーマリンク