MSDNet: Multi-Scale Decoder for Few-Shot Semantic Segmentation via Transformer-Guided Prototyping

要約

フューショット セマンティック セグメンテーションは、少数の注釈付きサンプルのみを使用して、クエリ画像内のオブジェクトをセグメント化するという課題に対処します。
しかし、これまでの最先端の手法の多くは、複雑な局所的な意味論的特徴を破棄する必要があるか、または高い計算の複雑さに悩まされる必要があります。
これらの課題に対処するために、トランスフォーマー アーキテクチャに基づいた新しいフューショット セマンティック セグメンテーション フレームワークを提案します。
私たちのアプローチでは、空間変換デコーダーとコンテキスト マスク生成モジュールを導入して、サポート画像とクエリ画像の間の関係の理解を向上させます。
さらに、階層的な方法でさまざまな解像度の特徴を組み込むことによってセグメンテーション マスクを改良するマルチスケール デコーダーを導入します。
さらに、私たちのアプローチは、複雑さを軽減するために軽量な構造を維持しながら、中間エンコーダ段階からのグローバル機能を統合してコンテキストの理解を向上させます。
このパフォーマンスと効率のバランスにより、私たちの手法は $PASCAL-5^i$ や $COCO-20^i$ などのベンチマーク データセットで、1 ショット設定と 5 ショット設定の両方で最先端の結果を達成することができます。
特に、パラメータがわずか 150 万個しかない私たちのモデルは、既存の方法論の制限を克服しながら、競争力のあるパフォーマンスを実証しています。
https://github.com/amirezafateh/MSDNet

要約(オリジナル)

Few-shot Semantic Segmentation addresses the challenge of segmenting objects in query images with only a handful of annotated examples. However, many previous state-of-the-art methods either have to discard intricate local semantic features or suffer from high computational complexity. To address these challenges, we propose a new Few-shot Semantic Segmentation framework based on the transformer architecture. Our approach introduces the spatial transformer decoder and the contextual mask generation module to improve the relational understanding between support and query images. Moreover, we introduce a multi-scale decoder to refine the segmentation mask by incorporating features from different resolutions in a hierarchical manner. Additionally, our approach integrates global features from intermediate encoder stages to improve contextual understanding, while maintaining a lightweight structure to reduce complexity. This balance between performance and efficiency enables our method to achieve state-of-the-art results on benchmark datasets such as $PASCAL-5^i$ and $COCO-20^i$ in both 1-shot and 5-shot settings. Notably, our model with only 1.5 million parameters demonstrates competitive performance while overcoming limitations of existing methodologies. https://github.com/amirrezafateh/MSDNet

arxiv情報

著者 Amirreza Fateh,Mohammad Reza Mohammadi,Mohammad Reza Jahed Motlagh
発行日 2024-09-17 16:14:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク