Faithful and Plausible Natural Language Explanations for Image Classification: A Pipeline Approach

要約

画像分類のための既存の説明方法は、忠実でもっともらしい説明を提供するために苦労しています。
この論文は、トレーニングプロセスを変更したり、予測パフォーマンスに影響を与えることなく、CNNベースの分類器に適用できる事後の自然言語説明方法を提案することにより、この問題に対処します。
影響力のあるニューロンと対応するアクティベーションマップを分析することにより、この方法は、構造化された意味表現の形で分類器の決定プロセスの忠実な説明を生成し、それが言語モデルによってテキストに変換されます。
このパイプラインアプローチを通じて、生成された説明はニューラルネットワークアーキテクチャに基づいており、非専門家にアクセスしやすいままである間、分類プロセスに対する正確な洞察を提供します。
実験結果は、私たちの方法によって構築されたNLEがより妥当で忠実であることを示しています。
特に、ニューラルネットワーク構造(ニューロンのマスキング)におけるユーザー介入は、ベースラインの3倍効果的です。

要約(オリジナル)

Existing explanation methods for image classification struggle to provide faithful and plausible explanations. This paper addresses this issue by proposing a post-hoc natural language explanation method that can be applied to any CNN-based classifier without altering its training process or affecting predictive performance. By analysing influential neurons and the corresponding activation maps, the method generates a faithful description of the classifier’s decision process in the form of a structured meaning representation, which is then converted into text by a language model. Through this pipeline approach, the generated explanations are grounded in the neural network architecture, providing accurate insight into the classification process while remaining accessible to non-experts. Experimental results show that the NLEs constructed by our method are significantly more plausible and faithful. In particular, user interventions in the neural network structure (masking of neurons) are three times more effective than the baselines.

arxiv情報

著者 Adam Wojciechowski,Mateusz Lango,Ondrej Dusek
発行日 2025-03-18 14:13:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク