Architecture-Agnostic Masked Image Modeling — From ViT back to CNN

要約

マスキングイメージモデリングは、新しい自己教師付き事前学習法であり、Vision transformersを用いた多くの下流ビジョンタスクで印象的な成功を収めています。その基本的な考え方は単純で、入力画像の一部がマスクされ、その後、事前テキストタスクによって再構築されます。しかし、MIMの背後にある動作原理はよく説明されておらず、先行研究では、MIMは主にトランスフォーマーファミリーで機能するが、CNNとは相容れないと主張されている。本研究では、MIMが、より一般化された特徴抽出のために、パッチ間の中次的な相互作用をよりよく学習するようにモデルに教えることを本質的に観察する。そこで我々は、TransformerとCNNの両方に統一的に対応する、アーキテクチャ無視のMasked Image Modelingフレームワーク(A$^2$MIM)を提案する。一般的なベンチマークを用いた広範な実験により、A$^2$MIMは明示的な設計なしにより良い表現を学習し、様々な下流のタスクに移行するための強力な能力をバックボーンモデルに付与することが示された。

要約(オリジナル)

Masked image modeling, an emerging self-supervised pre-training method, has shown impressive success across numerous downstream vision tasks with Vision transformers. Its underlying idea is simple: a portion of the input image is masked out and then reconstructed via a pre-text task. However, the working principle behind MIM is not well explained, and previous studies insist that MIM primarily works for the Transformer family but is incompatible with CNNs. In this work, we observe that MIM essentially teaches the model to learn better middle-order interactions among patches for more generalized feature extraction. We then propose an Architecture-Agnostic Masked Image Modeling framework (A$^2$MIM), which is compatible with both Transformers and CNNs in a unified way. Extensive experiments on popular benchmarks show that A$^2$MIM learns better representations without explicit design and endows the backbone model with the stronger capability to transfer to various downstream tasks.

arxiv情報

著者 Siyuan Li,Di Wu,Fang Wu,Zelin Zang,Stan. Z. Li
発行日 2023-06-02 10:21:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV パーマリンク