Reactive Model Correction: Mitigating Harm to Task-Relevant Features via Conditional Bias Suppression

要約

ディープ ニューラル ネットワークは、トレーニング データ内の偽の相関を学習して依存する傾向があり、高リスクのアプリケーションでは致命的な結果を招く可能性があります。
有害な特徴へのモデルの依存を抑制するためのさまざまなアプローチが提案されており、追加のトレーニングなしで事後的に適用できます。
これらの方法は効率的に適用できますが、潜在的な特徴の分布をグローバルにシフトすることでモデルのパフォーマンスに悪影響を与える傾向もあります。
モデルの動作の意図しない過剰修正を軽減するために、モデル由来の知識と説明可能な人工知能 (XAI) の洞察を条件とした事後対応アプローチを提案します。
リアクティブ アプローチは多くのポストホック メソッドに適用できますが、特に P-ClArC (Projective Class Artifact Compensation) に対するリアクティブの組み込みを実証し、R-ClArC (Reactive Class Artifact Compensation) と呼ばれる新しいメソッドを導入します。
制御された設定 (FunnyBirds) および現実世界のデータセット (ISIC2019) を使用した厳密な実験を通じて、反応性を導入することで、適用される補正の悪影響を最小限に抑えながら、同時にスプリアス特徴への依存度を低く抑えることができることを示しました。

要約(オリジナル)

Deep Neural Networks are prone to learning and relying on spurious correlations in the training data, which, for high-risk applications, can have fatal consequences. Various approaches to suppress model reliance on harmful features have been proposed that can be applied post-hoc without additional training. Whereas those methods can be applied with efficiency, they also tend to harm model performance by globally shifting the distribution of latent features. To mitigate unintended overcorrection of model behavior, we propose a reactive approach conditioned on model-derived knowledge and eXplainable Artificial Intelligence (XAI) insights. While the reactive approach can be applied to many post-hoc methods, we demonstrate the incorporation of reactivity in particular for P-ClArC (Projective Class Artifact Compensation), introducing a new method called R-ClArC (Reactive Class Artifact Compensation). Through rigorous experiments in controlled settings (FunnyBirds) and with a real-world dataset (ISIC2019), we show that introducing reactivity can minimize the detrimental effect of the applied correction while simultaneously ensuring low reliance on spurious features.

arxiv情報

著者 Dilyara Bareeva,Maximilian Dreyer,Frederik Pahde,Wojciech Samek,Sebastian Lapuschkin
発行日 2024-04-15 09:16:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク