Rethinking Semantic Segmentation Evaluation for Explainability and Model Selection


セマンティック セグメンテーションは、画像の領域全体の一貫したクラス ラベルを確実に予測することを目的としています。
これは、現実世界のアプリケーション (自律ナビゲーションなど) を強化するシーン理解タスクです。
重要なアプリケーションの 1 つである、歩行者環境の自動意味理解のための画像の使用は、道路環境におけるアクセシビリティ機能のリモート マッピングを提供します。
このアプリケーション (および他の同様のアプリケーション) は、地理的オブジェクトの詳細な幾何学的情報を必要とします。
セマンティック セグメンテーションは、同じクラスの連続した領域を単一のエンティティとしてマップするため、このタスクの前提条件です。
重要なのは、私たちのようなセマンティック セグメンテーションの使用は、ピクセル単位の結果ではありません。
ただし、それらの定量的評価指標のほとんど (たとえば、平均交差オーバー ユニオン) は、セグメンテーション モデルのセグメンテーション過多および過少セグメンテーション プロパティを強調することができないグラウンド トゥルースとのピクセル単位の類似性に基づいています。
それを分析して他のメトリックと比較し、メトリックを使用すると、実際のアプリケーションでのセマンティック セグメンテーション モデルのパフォーマンスの説明可能性が向上することを実証します。


Semantic segmentation aims to robustly predict coherent class labels for entire regions of an image. It is a scene understanding task that powers real-world applications (e.g., autonomous navigation). One important application, the use of imagery for automated semantic understanding of pedestrian environments, provides remote mapping of accessibility features in street environments. This application (and others like it) require detailed geometric information of geographical objects. Semantic segmentation is a prerequisite for this task since it maps contiguous regions of the same class as single entities. Importantly, semantic segmentation uses like ours are not pixel-wise outcomes; however, most of their quantitative evaluation metrics (e.g., mean Intersection Over Union) are based on pixel-wise similarities to a ground-truth, which fails to emphasize over- and under-segmentation properties of a segmentation model. Here, we introduce a new metric to assess region-based over- and under-segmentation. We analyze and compare it to other metrics, demonstrating that the use of our metric lends greater explainability to semantic segmentation model performance in real-world applications.


著者 Yuxiang Zhang,Sachin Mehta,Anat Caspi
発行日 2023-02-15 18:39:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV パーマリンク