要約
セマンティックセグメンテーションは、コンピュータービジョンにおける重要でありながら挑戦的なタスクである画像のピクセルにラベルを割り当てます。
畳み込み方法は、ローカルの依存関係をうまく捉えていますが、長距離関係と闘っています。
グローバルコンテキストキャプチャではビジョントランス(VIT)が優れていますが、特に高解像度の入力では、高い計算需要によって妨げられています。
ほとんどの研究では、エンコーダーアーキテクチャを最適化しており、ボトルネックを掘り下げていないままにしています。これは、パフォーマンスと効率を向上させるための重要な領域です。
コンテキストフォーマーを提案します。これは、リアルタイムセマンティックセグメンテーションの効率、精度、堅牢性のバランスをとるために、ボトルネックのCNNとvitsの強さを活用するハイブリッドフレームワークを提案します。
フレームワークの効率は、階層的なマルチスケール表現のためのトークンピラミッド抽出モジュール(TPEM)、動的なスケールアウェア機能モデリングのためのTransformer and Modulating DepthwiseCONV(Trans-MDC)ブロック、および機能の融合モジュール(TransformerとMorging Module(
FMM)強化された空間的およびコンテキストの一貫性を備えた堅牢な統合のため。
ADE20K、PASCALコンテキスト、都市の景観、およびCOCO額のデータセットに関する広範な実験により、コンテキストフォーマーは既存のモデルを大幅に上回り、最先端のMIOUスコアを達成し、効率とパフォーマンスの新しいベンチマークを設定します。
コードは公開されます。
要約(オリジナル)
Semantic segmentation assigns labels to pixels in images, a critical yet challenging task in computer vision. Convolutional methods, although capturing local dependencies well, struggle with long-range relationships. Vision Transformers (ViTs) excel in global context capture but are hindered by high computational demands, especially for high-resolution inputs. Most research optimizes the encoder architecture, leaving the bottleneck underexplored – a key area for enhancing performance and efficiency. We propose ContextFormer, a hybrid framework leveraging the strengths of CNNs and ViTs in the bottleneck to balance efficiency, accuracy, and robustness for real-time semantic segmentation. The framework’s efficiency is driven by three synergistic modules: the Token Pyramid Extraction Module (TPEM) for hierarchical multi-scale representation, the Transformer and Modulating DepthwiseConv (Trans-MDC) block for dynamic scale-aware feature modeling, and the Feature Merging Module (FMM) for robust integration with enhanced spatial and contextual consistency. Extensive experiments on ADE20K, Pascal Context, CityScapes, and COCO-Stuff datasets show ContextFormer significantly outperforms existing models, achieving state-of-the-art mIoU scores, setting a new benchmark for efficiency and performance. The codes will be made publicly available.
arxiv情報
著者 | Mian Muhammad Naeem Abid,Nancy Mehta,Zongwei Wu,Fayaz Ali Dharejo,Radu Timofte |
発行日 | 2025-01-31 16:11:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google