Full Contextual Attention for Multi-resolution Transformers in Semantic Segmentation

要約

トランスフォーマーは、視覚認識タスクに非常に効果的であることが証明されています。
特に、ビジョン トランスフォーマーは、自己注意と学習可能なクラス トークンを通じて、圧縮されたグローバル表現を構築します。
マルチ解像度トランスフォーマーは、セマンティック セグメンテーションで最近成功を収めていますが、高解像度のフィーチャ マップでのみローカルな相互作用をキャプチャできます。
このホワイト ペーパーでは、グローバル トークンの概念を拡張して GLobal Attention Multi-resolution (GLAM) トランスフォーマーを構築します。
GLAM は、ほとんどの既存のトランスフォーマー バックボーンに統合できる汎用モジュールです。
GLAM には学習可能なグローバル トークンが含まれており、以前の方法とは異なり、すべての画像領域間の相互作用をモデル化し、トレーニング中に強力な表現を抽出できます。
広範な実験により、GLAM-Swin または GLAM-Swin-UNet は、ADE20K および Cityscapes でのバニラの対応物よりも大幅に優れたパフォーマンスを示すことが示されています。
さらに、GLAM は大規模な 3D 医用画像のセグメント化に使用でき、GLAM-nnFormer は BCV データセットで最先端のパフォーマンスを実現します。

要約(オリジナル)

Transformers have proved to be very effective for visual recognition tasks. In particular, vision transformers construct compressed global representations through self-attention and learnable class tokens. Multi-resolution transformers have shown recent successes in semantic segmentation but can only capture local interactions in high-resolution feature maps. This paper extends the notion of global tokens to build GLobal Attention Multi-resolution (GLAM) transformers. GLAM is a generic module that can be integrated into most existing transformer backbones. GLAM includes learnable global tokens, which unlike previous methods can model interactions between all image regions, and extracts powerful representations during training. Extensive experiments show that GLAM-Swin or GLAM-Swin-UNet exhibit substantially better performances than their vanilla counterparts on ADE20K and Cityscapes. Moreover, GLAM can be used to segment large 3D medical images, and GLAM-nnFormer achieves new state-of-the-art performance on the BCV dataset.

arxiv情報

著者 Loic Themyr,Clement Rambour,Nicolas Thome,Toby Collins,Alexandre Hostettler
発行日 2022-12-15 15:19:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T45, cs.CV パーマリンク