RES: A Robust Framework for Guiding Visual Explanation

要約

「説明を生成する方法」を主な焦点とする現代のディープニューラルネットワーク(DNN)での説明技術の急速な進歩にもかかわらず、説明自体の品質を調べる高度な研究質問(たとえば、「説明が正確かどうか」
)そして説明の質を改善する(例えば、「説明が不正確な場合にモデルを調整してより正確な説明を生成する方法」)はまだ比較的十分に検討されていません。
モデルをより良い説明に導くために、モデルの説明に監視信号を追加する説明監視の手法は、ディープニューラルネットワークの一般化可能性と本質的な解釈可能性の両方を改善する上で有望な効果を示し始めています。
ただし、特に顕著性マップで表されるビジョンベースのアプリケーションでの説明の監視に関する研究は、1)人間の説明の注釈境界の不正確さ、2)人間の説明の注釈領域の不完全性、
3)人間の注釈とモデル説明マップ間のデータ分布の不一致。
課題に対処するために、モデルの一般化可能性を理論的に正当化して、不正確な境界、不完全な領域、および人間の注釈の一貫性のない分布を処理する新しい目的を開発することにより、視覚的な説明を導くための一般的なRESフレームワークを提案します。
2つの実世界の画像データセットでの広範な実験は、説明の合理性とバックボーンDNNモデルのパフォーマンスの両方を強化する上で提案されたフレームワークの有効性を示しています。

要約(オリジナル)

Despite the fast progress of explanation techniques in modern Deep Neural Networks (DNNs) where the main focus is handling ‘how to generate the explanations’, advanced research questions that examine the quality of the explanation itself (e.g., ‘whether the explanations are accurate’) and improve the explanation quality (e.g., ‘how to adjust the model to generate more accurate explanations when explanations are inaccurate’) are still relatively under-explored. To guide the model toward better explanations, techniques in explanation supervision – which add supervision signals on the model explanation – have started to show promising effects on improving both the generalizability as and intrinsic interpretability of Deep Neural Networks. However, the research on supervising explanations, especially in vision-based applications represented through saliency maps, is in its early stage due to several inherent challenges: 1) inaccuracy of the human explanation annotation boundary, 2) incompleteness of the human explanation annotation region, and 3) inconsistency of the data distribution between human annotation and model explanation maps. To address the challenges, we propose a generic RES framework for guiding visual explanation by developing a novel objective that handles inaccurate boundary, incomplete region, and inconsistent distribution of human annotations, with a theoretical justification on model generalizability. Extensive experiments on two real-world image datasets demonstrate the effectiveness of the proposed framework on enhancing both the reasonability of the explanation and the performance of the backbone DNNs model.

arxiv情報

著者 Yuyang Gao,Tong Steven Sun,Guangji Bai,Siyi Gu,Sungsoo Ray Hong,Liang Zhao
発行日 2022-06-27 16:06:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク