要約
Transformer ベースのセマンティック セグメンテーションの最先端の方法では、一般に、クロスアテンションを介して画像埋め込みから追加の埋め込みを抽出し、セルフアテンションを介していずれかまたは両方のタイプの埋め込みを洗練し、画像埋め込みを画像に投影するために使用される Transformer デコーダが採用されています。
ドット積による追加の埋め込み。
目覚ましい成功にもかかわらず、これらの経験的設計には依然として理論的根拠や解釈が欠けており、そのため原理に基づいた改善の可能性が妨げられています。
この論文では、セマンティック セグメンテーションと圧縮、特に Transformer デコーダと主成分分析 (PCA) の間には基本的な関係があると主張します。
このような観点から、我々は、次のような解釈で、PrIncipled semantic Segementation (DEPICT) 用のホワイトボックスの完全に注意を向けた DEcoder を導出します。 1) 自己注意オペレーターは、画像の埋め込みを調整して、監視と一致する理想的な主部分空間を構築します。
ほとんどの情報を保持します。
2) クロスアテンション オペレーターは、洗練された画像埋め込みの低ランク近似を見つけようとします。これは、主部分空間の正規直交基底のセットであると予想され、事前定義されたクラスに対応します。
3) ドット積演算により、画像埋め込みをセグメンテーション マスクとしてコンパクトに表現できます。
データセット ADE20K に対して行われた実験では、DEPICT がブラック ボックス対応の Segmenter よりも常に優れたパフォーマンスを示し、軽量で堅牢であることがわかりました。
要約(オリジナル)
State-of-the-art methods for Transformer-based semantic segmentation typically adopt Transformer decoders that are used to extract additional embeddings from image embeddings via cross-attention, refine either or both types of embeddings via self-attention, and project image embeddings onto the additional embeddings via dot-product. Despite their remarkable success, these empirical designs still lack theoretical justifications or interpretations, thus hindering potentially principled improvements. In this paper, we argue that there are fundamental connections between semantic segmentation and compression, especially between the Transformer decoders and Principal Component Analysis (PCA). From such a perspective, we derive a white-box, fully attentional DEcoder for PrIncipled semantiC segemenTation (DEPICT), with the interpretations as follows: 1) the self-attention operator refines image embeddings to construct an ideal principal subspace that aligns with the supervision and retains most information; 2) the cross-attention operator seeks to find a low-rank approximation of the refined image embeddings, which is expected to be a set of orthonormal bases of the principal subspace and corresponds to the predefined classes; 3) the dot-product operation yields compact representation for image embeddings as segmentation masks. Experiments conducted on dataset ADE20K find that DEPICT consistently outperforms its black-box counterpart, Segmenter, and it is light weight and more robust.
arxiv情報
著者 | Qishuai Wen,Chun-Guang Li |
発行日 | 2024-11-05 12:10:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google