要約
事後帰属方法は、影響力のある入力ピクセルを強調することにより、深い学習予測を説明することを目的としています。
ただし、これらの説明は非常に堅牢ではありません。小さく、知覚できない入力摂動は、同じ予測を維持しながら、帰属マップを劇的に変更する可能性があります。
この脆弱性は、彼らの信頼性を損ない、ピクセルレベルの属性スコアの厳密な堅牢性保証を求めています。
ランダム化スムージングを使用して、ブラックボックス属性法のピクセルレベルの堅牢性を保証する最初の認証フレームワークを紹介します。
属性マップをスパースしてスムージングすることにより、タスクをセグメンテーションの問題として再定式化し、各ピクセルの重要性を$ \ ell_2 $ $の摂動に対する認証します。
さらに、認定された堅牢性、ローカリゼーション、忠実さを評価するために、3つの評価メトリックを提案します。
5つのImagenetモデルにわたる12の帰属方法の広範な評価は、当社の認定された属性が堅牢で解釈可能で忠実であり、ダウンストリームタスクでの信頼できる使用を可能にすることを示しています。
私たちのコードはhttps://github.com/alaaanani/certified-attributionsにあります。
要約(オリジナル)
Post-hoc attribution methods aim to explain deep learning predictions by highlighting influential input pixels. However, these explanations are highly non-robust: small, imperceptible input perturbations can drastically alter the attribution map while maintaining the same prediction. This vulnerability undermines their trustworthiness and calls for rigorous robustness guarantees of pixel-level attribution scores. We introduce the first certification framework that guarantees pixel-level robustness for any black-box attribution method using randomized smoothing. By sparsifying and smoothing attribution maps, we reformulate the task as a segmentation problem and certify each pixel’s importance against $\ell_2$-bounded perturbations. We further propose three evaluation metrics to assess certified robustness, localization, and faithfulness. An extensive evaluation of 12 attribution methods across 5 ImageNet models shows that our certified attributions are robust, interpretable, and faithful, enabling reliable use in downstream tasks. Our code is at https://github.com/AlaaAnani/certified-attributions.
arxiv情報
著者 | Alaa Anani,Tobias Lorenz,Mario Fritz,Bernt Schiele |
発行日 | 2025-06-18 14:41:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google