Improving Visual Representation Learning through Perceptual Understanding

要約

より高いシーンレベルの機能の学習を明示的に奨励することにより、モデルによって学習された表現を改善するマスクオートエンコーダー (MAE) の拡張機能を提示します。
これは、(i) 生成された画像と実際の画像との間の知覚的類似項の導入、(ii) マルチスケール トレーニングや適応弁別増強などの敵対的トレーニング文献からのいくつかの手法の組み込みによって行われます。
これらの組み合わせにより、ピクセルの再構成が改善されるだけでなく、画像内のより高レベルの詳細をキャプチャするように見える表現も得られます。
さらに結果的に、私たちの方法である Perceptual MAE が、以前の方法よりも優れたダウンストリーム タスクに使用された場合に、どのようにパフォーマンスが向上するかを示します。
ImageNet-1K で 78.1% のトップ 1 精度の線形プロービングを達成し、微調整時に最大 88.1% を達成し、他のダウンストリーム タスクでも同様の結果が得られました。追加の事前トレーニング済みモデルやデータをすべて使用する必要はありません。

要約(オリジナル)

We present an extension to masked autoencoders (MAE) which improves on the representations learnt by the model by explicitly encouraging the learning of higher scene-level features. We do this by: (i) the introduction of a perceptual similarity term between generated and real images (ii) incorporating several techniques from the adversarial training literature including multi-scale training and adaptive discriminator augmentation. The combination of these results in not only better pixel reconstruction but also representations which appear to capture better higher-level details within images. More consequentially, we show how our method, Perceptual MAE, leads to better performance when used for downstream tasks outperforming previous methods. We achieve 78.1% top-1 accuracy linear probing on ImageNet-1K and up to 88.1% when fine-tuning, with similar results for other downstream tasks, all without use of additional pre-trained models or data.

arxiv情報

著者 Samyakh Tukra,Frederick Hoffman,Ken Chatfield
発行日 2022-12-30 00:59:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク