More than the Sum of Its Parts: Ensembling Backbone Networks for Few-Shot Segmentation


セマンティック セグメンテーションは、\acrlong{ai} およびロボティクスのアプリケーションで堅牢な画像を理解するための重要な前提条件です。
\acrlong{fss} は特に、利用できるトレーニング例が限られている困難な状況における従来のセグメンテーション手法の拡張と最適化に関係します。
\acrlong{fss} の主なアプローチは、単一のバックボーンに依存して視覚的特徴を抽出することです。
この研究では、さまざまなバックボーンの特徴を融合することで、\acrlong{fss} モデルの機能が向上し、より豊富な視覚的特徴をキャプチャできるかどうかを調査します。
この問題に取り組むために、独立投票と特徴融合という 2 つのアンサンブル手法を提案し、比較します。
利用可能な \acrlong{fss} メソッドのうち、提案されているアンサンブル手法を PANet 上に実装します。
PANet のバックボーン埋め込みからセグメンテーション マスクを予測することに特化したモジュールは、トレーニング可能なパラメーターを回避し、さまざまなアンサンブル戦略の影響を分離するための制御された「in vitro」設定を作成します。
さまざまなバックボーンの補完的な強みを活用することで、当社のアプローチは、困難なワンショット学習シナリオであっても、標準ベンチマーク全体で元の単一バックボーン PANet よりも優れたパフォーマンスを発揮します。
具体的には、3 つのバックボーンを組み合わせた最高パフォーマンスのシナリオで、PASCAL-5\textsuperscript{i} で +7.37\%、COCO-20\textsuperscript{i} で +10.68\% のパフォーマンス向上を達成しました。
これらの結果は、予測されたサブジェクト マスクの定性的検査と合わせて、PANet の複数のバックボーンに依存することで、より包括的な特徴表現が得られ、データが不足する困難な環境での \acrlong{fss} メソッドの適用を促進できることを示唆しています。


Semantic segmentation is a key prerequisite to robust image understanding for applications in \acrlong{ai} and Robotics. \acrlong{fss}, in particular, concerns the extension and optimization of traditional segmentation methods in challenging conditions where limited training examples are available. A predominant approach in \acrlong{fss} is to rely on a single backbone for visual feature extraction. Choosing which backbone to leverage is a deciding factor contributing to the overall performance. In this work, we interrogate on whether fusing features from different backbones can improve the ability of \acrlong{fss} models to capture richer visual features. To tackle this question, we propose and compare two ensembling techniques-Independent Voting and Feature Fusion. Among the available \acrlong{fss} methods, we implement the proposed ensembling techniques on PANet. The module dedicated to predicting segmentation masks from the backbone embeddings in PANet avoids trainable parameters, creating a controlled `in vitro’ setting for isolating the impact of different ensembling strategies. Leveraging the complementary strengths of different backbones, our approach outperforms the original single-backbone PANet across standard benchmarks even in challenging one-shot learning scenarios. Specifically, it achieved a performance improvement of +7.37\% on PASCAL-5\textsuperscript{i} and of +10.68\% on COCO-20\textsuperscript{i} in the top-performing scenario where three backbones are combined. These results, together with the qualitative inspection of the predicted subject masks, suggest that relying on multiple backbones in PANet leads to a more comprehensive feature representation, thus expediting the successful application of \acrlong{fss} methods in challenging, data-scarce environments.


著者 Nico Catalano,Alessandro Maranelli,Agnese Chiatti,Matteo Matteucci
発行日 2024-02-09 18:01:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV, cs.LG パーマリンク