要約
高品質のセマンティック セグメンテーションは、グローバル コンテキスト モデリング、ローカル詳細エンコード、マルチスケール特徴抽出という 3 つの主要な機能に依存しています。
しかし、最近の方法では、これらすべての機能を同時に実現するのが困難です。
したがって、私たちはセグメンテーション ネットワークが効率的なグローバル コンテキスト モデリング、高品質のローカル詳細エンコード、さまざまな入力解像度に対する豊富なマルチスケール特徴表現を同時に実行できるようにすることを目指しています。
この論文では、SegMAN エンコーダと呼ばれるハイブリッド機能エンコーダと状態空間モデルに基づくデコーダで構成される新しい線形時間モデルである SegMAN を紹介します。
具体的には、SegMAN Encoder は、スライディング ローカル アテンションを動的状態空間モデルと相乗的に統合し、きめの細かいローカルの詳細を維持しながら、高効率のグローバル コンテキスト モデリングを可能にします。
一方、デコーダの MMSCopE モジュールは、マルチスケール コンテキスト特徴抽出を強化し、入力解像度に応じて適応的にスケーリングします。
私たちは、ADE20K、Cityscapes、COCO-Stuff という 3 つの挑戦的なデータセットで SegMAN を総合的に評価します。
たとえば、SegMAN-B は ADE20K で 52.6% の mIoU を達成し、SegNext-L を 1.6% mIoU 上回り、計算量を 15% GFLOP 以上削減します。
Cityscapes では、SegMAN-B は 83.8% mIoU を達成し、GFLOPS の約半分で SegFormer-B3 を 2.1% mIoU 上回ります。
同様に、SegMAN-B は、COCO-Stuff データセットの GFLOP が低くなり、VWFormer-B3 よりも 1.6% mIoU 向上しています。
私たちのコードは https://github.com/yunxiangfu2001/SegMAN で入手できます。
要約(オリジナル)
High-quality semantic segmentation relies on three key capabilities: global context modeling, local detail encoding, and multi-scale feature extraction. However, recent methods struggle to possess all these capabilities simultaneously. Hence, we aim to empower segmentation networks to simultaneously carry out efficient global context modeling, high-quality local detail encoding, and rich multi-scale feature representation for varying input resolutions. In this paper, we introduce SegMAN, a novel linear-time model comprising a hybrid feature encoder dubbed SegMAN Encoder, and a decoder based on state space models. Specifically, the SegMAN Encoder synergistically integrates sliding local attention with dynamic state space models, enabling highly efficient global context modeling while preserving fine-grained local details. Meanwhile, the MMSCopE module in our decoder enhances multi-scale context feature extraction and adaptively scales with the input resolution. We comprehensively evaluate SegMAN on three challenging datasets: ADE20K, Cityscapes, and COCO-Stuff. For instance, SegMAN-B achieves 52.6% mIoU on ADE20K, outperforming SegNeXt-L by 1.6% mIoU while reducing computational complexity by over 15% GFLOPs. On Cityscapes, SegMAN-B attains 83.8% mIoU, surpassing SegFormer-B3 by 2.1% mIoU with approximately half the GFLOPs. Similarly, SegMAN-B improves upon VWFormer-B3 by 1.6% mIoU with lower GFLOPs on the COCO-Stuff dataset. Our code is available at https://github.com/yunxiangfu2001/SegMAN.
arxiv情報
著者 | Yunxiang Fu,Meng Lou,Yizhou Yu |
発行日 | 2024-12-16 15:38:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google