SemSegBench & DetecBench: Benchmarking Reliability and Generalization Beyond Classification

要約

深い学習における信頼性と一般化は、画像分類の文脈で主に研究されています。
しかし、安全性が批判的なドメインの現実世界のアプリケーションには、セマンティックセグメンテーションやオブジェクト検出などのより広範なセマンティックタスクセットが含まれます。これには、専用のモデルアーキテクチャの多様なセットが付属しています。
セグメンテーションと検出における堅牢なモデル設計に向けた研究を促進するために、私たちの主な目的は、分布シフトと敵対的操作に対する堅牢性に関するベンチマークツールを提供することです。
セマンティックセグメンテーションおよびオブジェクト検出モデルの信頼性と一般化に関するこれまでで最も広範な評価とともに、ベンチマークツールのSemsegbenchとDetecbenchを提案します。
特に、4つのデータセットと2つのデータセットにわたって61のオブジェクト検出器にわたって76のセグメンテーションモデルをベンチマークし、多様な敵対的攻撃と一般的な腐敗の下でのパフォーマンスを評価します。
私たちの調査結果は、最先端のモデルの体系的な弱点を明らかにし、アーキテクチャ、バックボーン、モデルの容量に基づいて重要な傾向を明らかにします。
SemsegbenchとDetecbenchは、GitHubリポジトリ(https://github.com/shashankskagnihotri/benchmarking_reliability_generalization)と合計6139の評価の完全なセットでオープンソースを受けています。
収集されたデータが、分類を超えてモデルの信頼性を改善するための将来の研究を促進し、奨励することを予想しています。

要約(オリジナル)

Reliability and generalization in deep learning are predominantly studied in the context of image classification. Yet, real-world applications in safety-critical domains involve a broader set of semantic tasks, such as semantic segmentation and object detection, which come with a diverse set of dedicated model architectures. To facilitate research towards robust model design in segmentation and detection, our primary objective is to provide benchmarking tools regarding robustness to distribution shifts and adversarial manipulations. We propose the benchmarking tools SEMSEGBENCH and DETECBENCH, along with the most extensive evaluation to date on the reliability and generalization of semantic segmentation and object detection models. In particular, we benchmark 76 segmentation models across four datasets and 61 object detectors across two datasets, evaluating their performance under diverse adversarial attacks and common corruptions. Our findings reveal systematic weaknesses in state-of-the-art models and uncover key trends based on architecture, backbone, and model capacity. SEMSEGBENCH and DETECBENCH are open-sourced in our GitHub repository (https://github.com/shashankskagnihotri/benchmarking_reliability_generalization) along with our complete set of total 6139 evaluations. We anticipate the collected data to foster and encourage future research towards improved model reliability beyond classification.

arxiv情報

著者 Shashank Agnihotri,David Schader,Jonas Jakubassa,Nico Sharei,Simon Kral,Mehmet Ege Kaçar,Ruben Weber,Margret Keuper
発行日 2025-05-23 15:17:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク