要約
安定性保証は、機能の属性を評価するための新たなツールですが、既存の認証方法は平滑化された分類器に依存し、しばしば保守的な保証を得ることがよくあります。
これらの制限に対処するために、ソフトの安定性を導入し、任意の帰属に対して非自明で解釈可能な保証を提供する、シンプルでモデルに依存しない、サンプル効率の高い安定性認証アルゴリズム(SCA)を提案します。
さらに、軽度の平滑化により、より積極的な妥協を必要とする事前の認証方法とは対照的に、精度と安定性の間の優雅なトレードオフを可能にすることを示します。
ブール関数解析を使用して、平滑化下での安定性の新しい特性評価を与えます。
視覚と言語のタスクに関するSCAを評価し、説明方法の堅牢性を測定する際のソフト安定性の有効性を実証します。
要約(オリジナル)
Stability guarantees are an emerging tool for evaluating feature attributions, but existing certification methods rely on smoothed classifiers and often yield conservative guarantees. To address these limitations, we introduce soft stability and propose a simple, model-agnostic, and sample-efficient stability certification algorithm (SCA) that provides non-trivial and interpretable guarantees for any attribution. Moreover, we show that mild smoothing enables a graceful tradeoff between accuracy and stability, in contrast to prior certification methods that require a more aggressive compromise. Using Boolean function analysis, we give a novel characterization of stability under smoothing. We evaluate SCA on vision and language tasks, and demonstrate the effectiveness of soft stability in measuring the robustness of explanation methods.
arxiv情報
著者 | Helen Jin,Anton Xue,Weiqiu You,Surbhi Goel,Eric Wong |
発行日 | 2025-04-18 16:39:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google