Stochastic positional embeddings improve masked image modeling

要約

マスク画像モデリング (MIM) は、ラベルのない画像からの学習を可能にする、有望な自己教師あり学習アプローチです。
最近の成功にもかかわらず、MIM を介して適切な表現を学習することは、正確な位置で適切なセマンティック コンテンツを予測する必要があるため、依然として困難です。
たとえば、犬の不完全な写真が与えられた場合、尻尾があることは推測できますが、その正確な位置を判断することはできません。
この研究では、確率的位置埋め込み (StoP) を使用して、位置の不確実性を MIM に組み込むことを提案します。
具体的には、ガウス分布から抽出された確率論的なマスクされたトークンの位置に基づいてモデルを条件付けします。
StoP は、位置特徴への過剰適合を軽減し、位置の不確実性に対してより堅牢な特徴を学習する方向にモデルを導きます。
定量的には、StoP はさまざまなダウンストリーム タスクでダウンストリーム MIM パフォーマンスを向上させます。これには、ViT-B を使用した ImageNet 線形プローブの $+1.7\%$ や、データの $1\%$ を使用した ViT-H の $+2.5\%$ が含まれます。

要約(オリジナル)

Masked Image Modeling (MIM) is a promising self-supervised learning approach that enables learning from unlabeled images. Despite its recent success, learning good representations through MIM remains challenging because it requires predicting the right semantic content in accurate locations. For example, given an incomplete picture of a dog, we can guess that there is a tail, but we cannot determine its exact location. In this work, we propose to incorporate location uncertainty into MIM by using stochastic positional embeddings (StoP). Specifically, we condition the model on stochastic masked token positions drawn from a Gaussian distribution. StoP reduces overfitting to location features and guides the model toward learning features that are more robust to location uncertainties. Quantitatively, StoP improves downstream MIM performance on a variety of downstream tasks, including $+1.7\%$ on ImageNet linear probing using ViT-B, and $+2.5\%$ for ViT-H using $1\%$ of the data.

arxiv情報

著者 Amir Bar,Florian Bordes,Assaf Shocher,Mahmoud Assran,Pascal Vincent,Nicolas Ballas,Trevor Darrell,Amir Globerson,Yann LeCun
発行日 2024-02-27 18:59:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク