Unlearning-based Neural Interpretations

要約

勾配ベースの解釈では、多くの場合、特徴量の重要性の計算における飽和を避けるために、比較のアンカー ポイントが必要になります。
静的関数 (一定のマッピング、平均化、ぼかしなど) を使用して定義された現在のベースラインが、モデルの動作から逸脱する有害な色、テクスチャ、または周波数の仮定を注入することを示します。
これにより、不規則な勾配が蓄積され、偏り、脆弱で、操作可能なアトリビューション マップが生成されます。
静的なアプローチから離れて、最も急な上昇の非学習方向に向かって入力を摂動させることによって、(非)学習可能で偏りのない適応ベースラインを計算する UNI を提案します。
私たちの方法は信頼できるベースラインを発見し、顕著な特徴を消去することに成功し、それによって高曲率の決定境界を局所的に平滑化します。
私たちの分析では、忠実で効率的かつ堅牢な解釈を生成するための有望な手段としてアンラーニングが指摘されています。

要約(オリジナル)

Gradient-based interpretations often require an anchor point of comparison to avoid saturation in computing feature importance. We show that current baselines defined using static functions–constant mapping, averaging or blurring–inject harmful colour, texture or frequency assumptions that deviate from model behaviour. This leads to accumulation of irregular gradients, resulting in attribution maps that are biased, fragile and manipulable. Departing from the static approach, we propose UNI to compute an (un)learnable, debiased and adaptive baseline by perturbing the input towards an unlearning direction of steepest ascent. Our method discovers reliable baselines and succeeds in erasing salient features, which in turn locally smooths the high-curvature decision boundaries. Our analyses point to unlearning as a promising avenue for generating faithful, efficient and robust interpretations.

arxiv情報

著者 Ching Lam Choi,Alexandre Duplessis,Serge Belongie
発行日 2024-10-10 16:02:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク