Adversarial Masking for Self-Supervised Learning

要約

我々は、自己教師付き学習のためのマスク画像モデル(MIM)フレームワークであるADIOSを提案する。このフレームワークは、敵対的目標を用いて、マスキング関数と画像エンコーダを同時に学習する。画像エンコーダは、原画像とマスク画像の表現間の距離を最小化するように学習される。マスキング関数は、逆にこの距離を最大化することを目的としています。ADIOSは、ImageNet100やSTL10での分類、CIFAR10/100、Flowers102、iNaturalistでの伝達学習、Backgrounds challenge (Xiao et al., 2021) で評価した頑健性など、様々なタスクやデータセットで最先端の自己教師あり学習 (SSL) 手法を常に改善し、意味的に意味のあるマスクを生成しています。MAE, BEiT, iBOTのような最新のMIMモデルとは異なり、ADIOSはVision Transformersの画像-パッチトークン化の構築に依存せず、畳み込みバックボーンを使って実装することが可能である。さらに、ADIOSによって学習されたマスクは、一般的なMIMモデルで用いられるマスキングスキームよりもSSL手法の表現学習を向上させる効果があることを実証する。コードは https://github.com/YugeTen/adios で公開されています。

要約(オリジナル)

We propose ADIOS, a masked image model (MIM) framework for self-supervised learning, which simultaneously learns a masking function and an image encoder using an adversarial objective. The image encoder is trained to minimise the distance between representations of the original and that of a masked image. The masking function, conversely, aims at maximising this distance. ADIOS consistently improves on state-of-the-art self-supervised learning (SSL) methods on a variety of tasks and datasets — including classification on ImageNet100 and STL10, transfer learning on CIFAR10/100, Flowers102 and iNaturalist, as well as robustness evaluated on the backgrounds challenge (Xiao et al., 2021) — while generating semantically meaningful masks. Unlike modern MIM models such as MAE, BEiT and iBOT, ADIOS does not rely on the image-patch tokenisation construction of Vision Transformers, and can be implemented with convolutional backbones. We further demonstrate that the masks learned by ADIOS are more effective in improving representation learning of SSL methods than masking schemes used in popular MIM models. Code is available at https://github.com/YugeTen/adios.

arxiv情報

著者 Yuge Shi,N. Siddharth,Philip H. S. Torr,Adam R. Kosiorek
発行日 2022-07-06 09:33:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG パーマリンク