Longer-range Contextualized Masked Autoencoder

要約

マスク イメージ モデリング (MIM) は、有望な自己教師あり学習 (SSL) 戦略として浮上しています。
MIM 事前トレーニングでは、一部の入力ピクセルをランダムにマスクし、残りのピクセルからマスクされたピクセルを再構築することにより、エンコーダー/デコーダー フレームワークを使用した強力な表現の学習が容易になります。
ただし、エンコーダーは部分的なピクセルを使用してトレーニングされるため、MIM の事前トレーニングでは長距離の依存関係を理解する能力が低下する可能性があります。
この制限により、複数範囲の依存関係を完全に理解する機能が妨げられる可能性があり、その結果、アテンション マップ内でハイライト表示される領域が狭くなり、精度が低下する可能性があります。
この制限を軽減するために、Longer-range Contextualized Masked Autoencoder (LC-MAE) という名前の自己教師あり学習フレームワークを提案します。
LC-MAE は、視覚表現のグローバルなコンテキスト理解を効果的に活用すると同時に、入力の空間的冗長性を削減します。
私たちの方法では、エンコーダが複数のビューのピクセル全体から学習すると同時に、まばらなピクセルからローカル表現も学習するように制御されます。
その結果、LC-MAE はより多くの識別表現を学習し、ImageNet-1K 上の ViT-B で 0.6%p ゲインで 84.2% のトップ 1 精度を達成するというパフォーマンスの向上につながりました。
特異値スペクトルと注意力の分析によって証明されるように、成功の原因は強化された事前トレーニング方法によるものであると考えています。
最後に、LC-MAE は、下流のセマンティック セグメンテーションと詳細な視覚分類タスクで大幅なパフォーマンス向上を達成します。
そして多様な堅牢な評価指標についても。
私たちのコードは公開される予定です。

要約(オリジナル)

Masked image modeling (MIM) has emerged as a promising self-supervised learning (SSL) strategy. The MIM pre-training facilitates learning powerful representations using an encoder-decoder framework by randomly masking some input pixels and reconstructing the masked pixels from the remaining ones. However, as the encoder is trained with partial pixels, the MIM pre-training can suffer from a low capability of understanding long-range dependency. This limitation may hinder its capability to fully understand multiple-range dependencies, resulting in narrow highlighted regions in the attention map that may incur accuracy drops. To mitigate the limitation, We propose a self-supervised learning framework, named Longer-range Contextualized Masked Autoencoder (LC-MAE). LC-MAE effectively leverages a global context understanding of visual representations while simultaneously reducing the spatial redundancy of input at the same time. Our method steers the encoder to learn from entire pixels in multiple views while also learning local representation from sparse pixels. As a result, LC-MAE learns more discriminative representations, leading to a performance improvement of achieving 84.2% top-1 accuracy with ViT-B on ImageNet-1K with 0.6%p gain. We attribute the success to the enhanced pre-training method, as evidenced by the singular value spectrum and attention analyses. Finally, LC-MAE achieves significant performance gains at the downstream semantic segmentation and fine-grained visual classification tasks; and on diverse robust evaluation metrics. Our code will be publicly available.

arxiv情報

著者 Taekyung Kim,Sanghyuk Chun,Byeongho Heo,Dongyoon Han
発行日 2023-10-20 15:42:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク