APANet: Adaptive Prototypes Alignment Network for Few-Shot Semantic Segmentation

要約

少数ショット セマンティック セグメンテーションは、特定のクエリ イメージ内のノベル クラス オブジェクトを、ラベル付けされた少数のサポート イメージのみでセグメント化することを目的としています。
ほとんどの高度なソリューションは、各クエリ機能を学習したクラス固有のプロトタイプと照合することでセグメンテーションを実行するメトリック学習フレームワークを利用します。
ただし、このフレームワークは、機能の比較が不完全であるため、分類に偏りがあります。
この問題に対処するために、クラス固有およびクラスにとらわれないプロトタイプを導入することにより、適応プロトタイプ表現を提示し、クエリ機能とのセマンティック アラインメントを学習するための完全なサンプル ペアを構築します。
補完的な機能の学習方法は、機能の比較を効果的に強化し、少数ショットの設定で偏りのないセグメンテーション モデルを生成するのに役立ちます。
これは、プロトタイプを生成し、クエリ機能を組み合わせて比較を実行する 2 つの分岐エンドツーエンド ネットワーク (つまり、クラス固有の分岐とクラスに依存しない分岐) で実装されます。
さらに、提案されたクラスにとらわれない分岐は、単純ですが効果的です。
実際には、クエリ画像の複数のクラスに依存しないプロトタイプを適応的に生成し、自己対照的な方法で特徴の配置を学習できます。
PASCAL-5$^i$ と COCO-20$^i$ での広範な実験は、我々の方法の優位性を示しています。
推論効率を犠牲にすることなく、私たちのモデルはセマンティック セグメンテーションの 1 ショットと 5 ショットの両方の設定で最先端の結果を達成します。

要約(オリジナル)

Few-shot semantic segmentation aims to segment novel-class objects in a given query image with only a few labeled support images. Most advanced solutions exploit a metric learning framework that performs segmentation through matching each query feature to a learned class-specific prototype. However, this framework suffers from biased classification due to incomplete feature comparisons. To address this issue, we present an adaptive prototype representation by introducing class-specific and class-agnostic prototypes and thus construct complete sample pairs for learning semantic alignment with query features. The complementary features learning manner effectively enriches feature comparison and helps yield an unbiased segmentation model in the few-shot setting. It is implemented with a two-branch end-to-end network (i.e., a class-specific branch and a class-agnostic branch), which generates prototypes and then combines query features to perform comparisons. In addition, the proposed class-agnostic branch is simple yet effective. In practice, it can adaptively generate multiple class-agnostic prototypes for query images and learn feature alignment in a self-contrastive manner. Extensive experiments on PASCAL-5$^i$ and COCO-20$^i$ demonstrate the superiority of our method. At no expense of inference efficiency, our model achieves state-of-the-art results in both 1-shot and 5-shot settings for semantic segmentation.

arxiv情報

著者 Jiacheng Chen,Bin-Bin Gao,Zongqing Lu,Jing-Hao Xue,Chengjie Wang,Qingmin Liao
発行日 2023-01-17 09:24:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク