i-MAE: Are Latent Representations in Masked Autoencoders Linearly Separable?

要約

マスクされたイメージ モデリング (MIM) は、視覚領域における強力で人気のある自己教師付き事前トレーニング アプローチとして認識されています。
しかし、そのようなスキームによる学習表現のメカニズムと特性の解釈可能性は、これまでのところ十分に調査されていません。
この作業では、Masked Autoencoders (MAE) に関する包括的な実験と実証的研究を通じて、学習した表現の動作を調査するための 2 つの重要な質問に対処します。(i) 入力が
1枚ではなく2枚の画像?
これは、多くの文献で印象的に証明されているように、MAE で学習した表現がダウンストリーム タスクで優れたパフォーマンスを発揮する理由を説明するために使用される具体的な証拠です。
(ii) マスクされたオートエンコーダーによって潜在特徴空間にエンコードされたセマンティクスの程度は?
これら 2 つの問題を調査するために、MAE の構造内の動作を理解するのに役立つ、双方向の画像再構成と蒸留損失による潜在特徴再構成を備えたシンプルで効果的な解釈可能な MAE (i-MAE) フレームワークを提案します。
CIFAR-10/100、Tiny-ImageNet、および ImageNet-1K データセットに対して広範な実験が行われ、発見した観測結果が検証されます。
さらに、潜在表現の特性を定性的に分析することに加えて、2 つの新しいメトリックを提案することにより、潜在空間における線形分離可能性の存在とセマンティクスの程度を調べます。
定性的および定量的実験にわたる驚くべき一貫した結果は、i-MAEがMAEフレームワークの解釈可能性研究のための優れたフレームワーク設計であり、より優れた表現能力を達成することを示しています。
コードは https://github.com/vision-learning-acceleration-lab/i-mae で入手できます。

要約(オリジナル)

Masked image modeling (MIM) has been recognized as a strong and popular self-supervised pre-training approach in the vision domain. However, the interpretability of the mechanism and properties of the learned representations by such a scheme are so far not well-explored. In this work, through comprehensive experiments and empirical studies on Masked Autoencoders (MAE), we address two critical questions to explore the behaviors of the learned representations: (i) Are the latent representations in Masked Autoencoders linearly separable if the input is a mixture of two images instead of one? This can be concrete evidence used to explain why MAE-learned representations have superior performance on downstream tasks, as proven by many literature impressively. (ii) What is the degree of semantics encoded in the latent feature space by Masked Autoencoders? To explore these two problems, we propose a simple yet effective Interpretable MAE (i-MAE) framework with a two-way image reconstruction and a latent feature reconstruction with distillation loss to help us understand the behaviors inside MAE’s structure. Extensive experiments are conducted on CIFAR-10/100, Tiny-ImageNet and ImageNet-1K datasets to verify the observations we discovered. Furthermore, in addition to qualitatively analyzing the characteristics of the latent representations, we examine the existence of linear separability and the degree of semantics in the latent space by proposing two novel metrics. The surprising and consistent results across the qualitative and quantitative experiments demonstrate that i-MAE is a superior framework design for interpretability research of MAE frameworks, as well as achieving better representational ability. Code is available at https://github.com/vision-learning-acceleration-lab/i-mae.

arxiv情報

著者 Kevin Zhang,Zhiqiang Shen
発行日 2022-10-20 17:59:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク