Rethinking Patch Dependence for Masked Autoencoders

要約

この研究では、マスクされたオートエンコーダ (MAE) のデコード メカニズムにおけるパッチ間の依存関係を再調査します。
MAE でマスクされたパッチを再構築するためのこのデコード メカニズムを、セルフ アテンションとクロス アテンションに分解します。
私たちの調査では、マスクパッチ間の自己注意は、良い表現を学習するために必須ではないことが示唆されています。
この目的を達成するために、私たちは新しい事前トレーニング フレームワークであるクロスアテンション マスクド オートエンコーダー (CrossMAE) を提案します。
CrossMAE のデコーダは、マスクされたトークンと可視のトークンの間のクロスアテンションのみを利用し、ダウンストリームのパフォーマンスを低下させることはありません。
この設計により、マスク トークンの小さなサブセットのみをデコードできるようになり、効率が向上します。
さらに、各デコーダ ブロックが異なるエンコーダ機能を利用できるようになり、表現学習が向上します。
CrossMAE は、デコード計算量が 2.5 ~ 3.7 倍少ないパフォーマンスで MAE に匹敵します。
また、同じコンピューティングにおける ImageNet 分類および COCO インスタンス セグメンテーションにおいて MAE を上回ります。
コードとモデル: https://crossmae.github.io

要約(オリジナル)

In this work, we re-examine inter-patch dependencies in the decoding mechanism of masked autoencoders (MAE). We decompose this decoding mechanism for masked patch reconstruction in MAE into self-attention and cross-attention. Our investigations suggest that self-attention between mask patches is not essential for learning good representations. To this end, we propose a novel pretraining framework: Cross-Attention Masked Autoencoders (CrossMAE). CrossMAE’s decoder leverages only cross-attention between masked and visible tokens, with no degradation in downstream performance. This design also enables decoding only a small subset of mask tokens, boosting efficiency. Furthermore, each decoder block can now leverage different encoder features, resulting in improved representation learning. CrossMAE matches MAE in performance with 2.5 to 3.7$\times$ less decoding compute. It also surpasses MAE on ImageNet classification and COCO instance segmentation under the same compute. Code and models: https://crossmae.github.io

arxiv情報

著者 Letian Fu,Long Lian,Renhao Wang,Baifeng Shi,Xudong Wang,Adam Yala,Trevor Darrell,Alexei A. Efros,Ken Goldberg
発行日 2024-01-25 18:49:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク