要約
説明可能な人工知能の最も一般的な方法は、前処理された不透明モデルで使用される最も関連性の高い機能を特定する事後技術です。
最も高度な事後の方法のいくつかは、ロジックルールの形式での入力機能の相互相互作用を説明する説明を生成できます。
ただし、これらの方法は、抽出された説明の一貫性をモデルの根本的な推論と保証することができないことがよくあります。
このギャップを埋めるために、現在のヒューリスティックベースのアプローチの限界を超えて、抽出された説明の一貫性と忠実度を確保するために、理論的に根拠のあるアプローチを提案します。
この目的のために、カテゴリー理論から描画すると、説明と不透明モデルの推論との間に論理的巻き込みを構造的に保持する説明ファンチャーを紹介します。
概念の証明として、提案されたアプローチが矛盾または不誠実な説明の生成を大幅に軽減する方法を検証する合成ベンチマーク上の提案された理論構築を検証します。
要約(オリジナル)
The most common methods in explainable artificial intelligence are post-hoc techniques which identify the most relevant features used by pretrained opaque models. Some of the most advanced post hoc methods can generate explanations that account for the mutual interactions of input features in the form of logic rules. However, these methods frequently fail to guarantee the consistency of the extracted explanations with the model’s underlying reasoning. To bridge this gap, we propose a theoretically grounded approach to ensure coherence and fidelity of the extracted explanations, moving beyond the limitations of current heuristic-based approaches. To this end, drawing from category theory, we introduce an explaining functor which structurally preserves logical entailment between the explanation and the opaque model’s reasoning. As a proof of concept, we validate the proposed theoretical constructions on a synthetic benchmark verifying how the proposed approach significantly mitigates the generation of contradictory or unfaithful explanations.
arxiv情報
著者 | Stefano Fioravanti,Francesco Giannini,Paolo Frazzetto,Fabio Zanasi,Pietro Barbiero |
発行日 | 2025-03-20 14:50:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google