Multi-Scale Grouped Prototypes for Interpretable Semantic Segmentation

要約

プロトタイプのパーツ学習は、セマンティックセグメンテーションを解釈可能にするための有望なアプローチとして浮上しています。
このモデルは、トレーニング中にプロトタイプとして見られる実際のパッチを選択し、テスト画像の一部とプロトタイプの類似性に基づいて密な予測マップを構築します。
これにより、ユーザーはプロトタイプ情報の観点からモデルによって学習したパターンとの間のリンクを検査できるため、解釈可能性が向上します。
この論文では、プロトタイプのパーツ学習のためにマルチスケールの画像表現を活用する解釈可能なセマンティックセグメンテーションの方法を提案します。
まず、いくつかのスケールで多様なプロトタイプパーツを明示的に学習し、プロトタイプの活性化出力のマルチスケール表現につながるプロトタイプ層を​​導入します。
次に、これらのスケール固有のプロトタイプパーツのマルチスケールスパースグループを生成するまばらなグループ化メカニズムを提案します。
これにより、セグメンテーションモデルの解釈可能性を高めながら、マルチスケールオブジェクト表現間の相互作用をより深く理解できます。
Pascal VOC、Cityscapes、およびADE20Kで実施された実験は、提案された方法がモデルのスパース性を増加させ、既存のプロトタイプベースの方法で解釈可能性を向上させ、解釈不可能な対応モデルでパフォーマンスギャップを狭めることを示しています。
コードはgithub.com/eceo-epfl/scaleprotosegで入手できます。

要約(オリジナル)

Prototypical part learning is emerging as a promising approach for making semantic segmentation interpretable. The model selects real patches seen during training as prototypes and constructs the dense prediction map based on the similarity between parts of the test image and the prototypes. This improves interpretability since the user can inspect the link between the predicted output and the patterns learned by the model in terms of prototypical information. In this paper, we propose a method for interpretable semantic segmentation that leverages multi-scale image representation for prototypical part learning. First, we introduce a prototype layer that explicitly learns diverse prototypical parts at several scales, leading to multi-scale representations in the prototype activation output. Then, we propose a sparse grouping mechanism that produces multi-scale sparse groups of these scale-specific prototypical parts. This provides a deeper understanding of the interactions between multi-scale object representations while enhancing the interpretability of the segmentation model. The experiments conducted on Pascal VOC, Cityscapes, and ADE20K demonstrate that the proposed method increases model sparsity, improves interpretability over existing prototype-based methods, and narrows the performance gap with the non-interpretable counterpart models. Code is available at github.com/eceo-epfl/ScaleProtoSeg.

arxiv情報

著者 Hugo Porta,Emanuele Dalsasso,Diego Marcos,Devis Tuia
発行日 2025-04-28 14:55:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク