Reckoning with the Disagreement Problem: Explanation Consensus as a Training Objective

要約

ニューラル ネットワークは、リスクの高い環境でますます重要な決定を下すようになっているため、理解可能で信頼できる方法でその動作を監視し、説明することが必要です。
一般的に使用されるタイプの説明子の 1 つは、事後特徴属性です。これは、入力内の各特徴に、モデルの出力への影響に対応するスコアを与える一連の方法です。
この一連の説明者の実際の主な制限は、どの機能が他の機能よりも重要であるかについて意見が分かれる可能性があることです。
この論文での私たちの貢献は、この不一致の問題を念頭に置いてモデルをトレーニングする方法です。
これは、Post hoc Explainer Agreement Regularization (PEAR) 損失項を精度に対応する標準項と一緒に導入することで行います。これは、一対の説明者間の特徴属性の違いを測定する追加の項です。
3 つのデータセットで、この損失項を使用してモデルをトレーニングし、目に見えないデータの説明コンセンサスを改善できること、および損失項で使用されているもの以外の説明者間のコンセンサスが改善されていることを確認しました。
改善されたコンセンサスとモデルのパフォーマンスの間のトレードオフを調べます。
そして最後に、私たちの方法が特徴属性の説明に与える影響を研究します。

要約(オリジナル)

As neural networks increasingly make critical decisions in high-stakes settings, monitoring and explaining their behavior in an understandable and trustworthy manner is a necessity. One commonly used type of explainer is post hoc feature attribution, a family of methods for giving each feature in an input a score corresponding to its influence on a model’s output. A major limitation of this family of explainers in practice is that they can disagree on which features are more important than others. Our contribution in this paper is a method of training models with this disagreement problem in mind. We do this by introducing a Post hoc Explainer Agreement Regularization (PEAR) loss term alongside the standard term corresponding to accuracy, an additional term that measures the difference in feature attribution between a pair of explainers. We observe on three datasets that we can train a model with this loss term to improve explanation consensus on unseen data, and see improved consensus between explainers other than those used in the loss term. We examine the trade-off between improved consensus and model performance. And finally, we study the influence our method has on feature attribution explanations.

arxiv情報

著者 Avi Schwarzschild,Max Cembalest,Karthik Rao,Keegan Hines,John Dickerson
発行日 2023-03-23 14:35:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク