Estimating label quality and errors in semantic segmentation data via any model

要約

セマンティック セグメンテーション データセットの労働集約的なアノテーション プロセスでは、人間がすべてのピクセルに正しくラベルを付けるのに苦労するため、多くの場合エラーが発生しやすくなります。
私たちは、このようなアノテーション エラーを自動的に検出するアルゴリズム、特に、スコアが最も低い画像が正しくラベル付けされる可能性が最も低くなるように、ラベルの品質をスコアリングする方法を研究しています。
これは、高品質のトレーニング/評価データセットを確保するためにどのデータをレビューするか優先順位を付けるのに役立ちます。これは、医療画像や自動運転車などの機密性の高いアプリケーションでは重要です。
広く適用可能なラベル品質スコアは、トレーニングされたセグメンテーション モデルからの確率的予測に依存しており、あらゆるモデル アーキテクチャとトレーニング手順を利用できます。
ここでは、SYNTHIA データセットのバージョンでアノテーション エラーを検出するために DeepLabV3+ または FPN セグメンテーション モデルと組み合わせて使用​​される 7 つの異なるラベル品質スコアリング方法を研究します。
精度と再現率の評価により、複数の種類のアノテーション エラーにわたって、誤ってラベル付けされた画像を識別するのに特に効果的なスコア (各ピクセルのアノテーション付きクラスのモデル推定尤度のソフト最小値) が明らかになります。

要約(オリジナル)

The labor-intensive annotation process of semantic segmentation datasets is often prone to errors, since humans struggle to label every pixel correctly. We study algorithms to automatically detect such annotation errors, in particular methods to score label quality, such that the images with the lowest scores are least likely to be correctly labeled. This helps prioritize what data to review in order to ensure a high-quality training/evaluation dataset, which is critical in sensitive applications such as medical imaging and autonomous vehicles. Widely applicable, our label quality scores rely on probabilistic predictions from a trained segmentation model — any model architecture and training procedure can be utilized. Here we study 7 different label quality scoring methods used in conjunction with a DeepLabV3+ or a FPN segmentation model to detect annotation errors in a version of the SYNTHIA dataset. Precision-recall evaluations reveal a score — the soft-minimum of the model-estimated likelihoods of each pixel’s annotated class — that is particularly effective to identify images that are mislabeled, across multiple types of annotation error.

arxiv情報

著者 Vedang Lad,Jonas Mueller
発行日 2023-07-11 07:29:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク