Advancing Ante-Hoc Explainable Models through Generative Adversarial Networks


トレーニング中、説明モジュールは分類子の潜在表現から視覚的概念を抽出するように最適化され、GAN ベースのモジュールは概念から生成された画像と真の画像を区別することを目的としています。
この共同トレーニング スキームにより、モデルは内部で学習した概念を人間が解釈可能な視覚的プロパティと暗黙的に整合させることができます。
要約すると、この研究は、タスクに合わせた概念表現を備えた本質的に解釈可能なディープ ビジョン モデルの構築に向けた重要な一歩を示しています。これは、現実世界の認識タスク向けに信頼できる AI を開発するための重要な実現要因です。


This paper presents a novel concept learning framework for enhancing model interpretability and performance in visual classification tasks. Our approach appends an unsupervised explanation generator to the primary classifier network and makes use of adversarial training. During training, the explanation module is optimized to extract visual concepts from the classifier’s latent representations, while the GAN-based module aims to discriminate images generated from concepts, from true images. This joint training scheme enables the model to implicitly align its internally learned concepts with human-interpretable visual properties. Comprehensive experiments demonstrate the robustness of our approach, while producing coherent concept activations. We analyse the learned concepts, showing their semantic concordance with object parts and visual attributes. We also study how perturbations in the adversarial training protocol impact both classification and concept acquisition. In summary, this work presents a significant step towards building inherently interpretable deep vision models with task-aligned concept representations – a key enabler for developing trustworthy AI for real-world perception tasks.


著者 Tanmay Garg,Deepika Vemuri,Vineeth N Balasubramanian
発行日 2024-01-09 16:16:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク