要約
マスクされたオートエンコーダー (MAE) は、コンピューター ビジョン タスクの教師なし事前トレーニングの強力な方法としての地位を確立しています。
バニラ MAE は画像の個々の部分の再構築に同様に重点を置きますが、私たちは注意に導かれた損失関数を通じて再構築プロセスを通知することを提案します。
教師なしオブジェクト発見の進歩を活用することで、関連するオブジェクトの再構築に重点を置くために損失関数で使用するシーンのアテンション マップを取得し、確立されたマスキング戦略を損なうことなく、よりオブジェクトに焦点を当てた表現を学習するようモデルを効果的に刺激します。
。
私たちの評価は、事前トレーニングされたモデルがバニラ MAE よりも優れた潜在表現を学習することを示しています。これは、いくつかのベンチマークでの線形プローブと k-NN 分類の結果が改善されていると同時に、さまざまなバックグラウンドに対して ViT をより堅牢にすることで実証されています。
要約(オリジナル)
Masked autoencoders (MAEs) have established themselves as a powerful method for unsupervised pre-training for computer vision tasks. While vanilla MAEs put equal emphasis on reconstructing the individual parts of the image, we propose to inform the reconstruction process through an attention-guided loss function. By leveraging advances in unsupervised object discovery, we obtain an attention map of the scene which we employ in the loss function to put increased emphasis on reconstructing relevant objects, thus effectively incentivizing the model to learn more object-focused representations without compromising the established masking strategy. Our evaluations show that our pre-trained models learn better latent representations than the vanilla MAE, demonstrated by improved linear probing and k-NN classification results on several benchmarks while at the same time making ViTs more robust against varying backgrounds.
arxiv情報
著者 | Leon Sick,Dominik Engel,Pedro Hermosilla,Timo Ropinski |
発行日 | 2024-02-23 08:11:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google