Gradient strikes back: How filtering out high frequencies improves explanations

要約

アトリビューション手法は、個々の入力がモデルの意思決定プロセスにどのように寄与するかを評価することを目的とした説明可能性手法 (XAI) のクラスに対応します。
「ホワイトボックス」方法として知られる、あるタイプのアトリビューション方法に重大な制限があることが判明しました。
これらの方法は非常に効率的ですが、高周波ノイズによって汚染されることが多い勾配信号に依存しています。
この制限を克服するために、「FORGrad」と呼ばれる新しいアプローチを導入します。
このシンプルな方法は、各モデル アーキテクチャの固有の特性に合わせた最適なカットオフ周波数を使用して、ノイズ アーティファクトを効果的に除去します。
私たちの調査結果は、FOGrad が既存のホワイトボックス手法のパフォーマンスを一貫して強化し、より正確ではあるが計算量の多い「ブラックボックス」手法と効果的に競合できることを示しています。
私たちの研究により、説明可能性を高めるためのよりシンプルで効率的なホワイトボックス手法の広範な採用が促進され、忠実性と計算効率のより良いバランスが提供されると期待しています。

要約(オリジナル)

Attribution methods correspond to a class of explainability methods (XAI) that aim to assess how individual inputs contribute to a model’s decision-making process. We have identified a significant limitation in one type of attribution methods, known as ‘white-box’ methods. Although highly efficient, these methods rely on a gradient signal that is often contaminated by high-frequency noise. To overcome this limitation, we introduce a new approach called ‘FORGrad’. This simple method effectively filters out noise artifacts by using optimal cut-off frequencies tailored to the unique characteristics of each model architecture. Our findings show that FORGrad consistently enhances the performance of already existing white-box methods, enabling them to compete effectively with more accurate yet computationally demanding ‘black-box’ methods. We anticipate that our research will foster broader adoption of simpler and more efficient white-box methods for explainability, offering a better balance between faithfulness and computational efficiency.

arxiv情報

著者 Sabine Muzellec,Thomas Fel,Victor Boutin,Léo andéol,Rufin VanRullen,Thomas Serre
発行日 2024-03-29 13:04:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク