Provably Better Explanations with Optimized Aggregation of Feature Attributions

要約

事後の説明に特徴の属性を使用することは、不透明な機械学習モデルの予測を理解して検証するための一般的な方法です。
利用可能な手法は数多くあるにもかかわらず、個々の手法では矛盾した不安定な結果が生成されることが多く、全体的な信頼性が疑問視されています。
この研究では、異なる方法またはそのバリエーションにわたる複数の説明を組み合わせることにより、特徴属性の品質を体系的に向上させることを目的としています。
この目的のために、モデルの動作に対する堅牢性や忠実性など、望ましい品質基準の証明可能な改善をもたらす特徴属性の最適な凸の組み合わせを導出する新しいアプローチを提案します。
さまざまなモデル アーキテクチャと一般的な特徴帰属手法を含む広範な実験を通じて、私たちの組み合わせ戦略が個々の手法や既存のベースラインよりも一貫して優れていることを実証しました。

要約(オリジナル)

Using feature attributions for post-hoc explanations is a common practice to understand and verify the predictions of opaque machine learning models. Despite the numerous techniques available, individual methods often produce inconsistent and unstable results, putting their overall reliability into question. In this work, we aim to systematically improve the quality of feature attributions by combining multiple explanations across distinct methods or their variations. For this purpose, we propose a novel approach to derive optimal convex combinations of feature attributions that yield provable improvements of desired quality criteria such as robustness or faithfulness to the model behavior. Through extensive experiments involving various model architectures and popular feature attribution techniques, we demonstrate that our combination strategy consistently outperforms individual methods and existing baselines.

arxiv情報

著者 Thomas Decker,Ananta R. Bhattarai,Jindong Gu,Volker Tresp,Florian Buettner
発行日 2024-06-07 17:03:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク