要約
分類子は、多くのコンピューター ビジョン タスクにおいて重要なコンポーネントであり、さまざまなアプリケーションで使用されるさまざまなモデルの基礎的なバックボーンとして機能します。
ただし、分類器の意思決定プロセスを理解することは依然として大きな課題です。
我々は、テキストから画像への拡散モデルの機能を活用して分類器の決定を説明する新しい方法である DiffEx を提案します。
単純な単一概念の分析に限定され、通常は分類子ごとに新しいモデルをトレーニングする必要がある従来の GAN ベースの説明可能モデルとは異なり、私たちのアプローチでは、単一概念 (顔や動物など) に焦点を当てた分類子だけでなく、単一概念に焦点を当てた分類子も説明できます。
複数の概念が関係する複雑なシーンを処理します。
DiffEx は、視覚言語モデルを使用してセマンティクスの階層リストを作成し、ユーザーが分類子に対する包括的なセマンティクスの影響 (顔分類子の「ひげ」セマンティクスなど) だけでなく、「ヤギひげ」などのサブタイプも識別できるようにします。
」または「バルボ」のひげ。
私たちの実験では、DiffEx が GAN の対応物と比較して非常に広範囲のセマンティクスをカバーでき、分類子の決定をより詳細かつきめ細かく理解できる階層型ツールを提供できることが実証されました。
要約(オリジナル)
Classifiers are important components in many computer vision tasks, serving as the foundational backbone of a wide variety of models employed across diverse applications. However, understanding the decision-making process of classifiers remains a significant challenge. We propose DiffEx, a novel method that leverages the capabilities of text-to-image diffusion models to explain classifier decisions. Unlike traditional GAN-based explainability models, which are limited to simple, single-concept analyses and typically require training a new model for each classifier, our approach can explain classifiers that focus on single concepts (such as faces or animals) as well as those that handle complex scenes involving multiple concepts. DiffEx employs vision-language models to create a hierarchical list of semantics, allowing users to identify not only the overarching semantic influences on classifiers (e.g., the ‘beard’ semantic in a facial classifier) but also their sub-types, such as ‘goatee’ or ‘Balbo’ beard. Our experiments demonstrate that DiffEx is able to cover a significantly broader spectrum of semantics compared to its GAN counterparts, providing a hierarchical tool that delivers a more detailed and fine-grained understanding of classifier decisions.
arxiv情報
著者 | Tahira Kazimi,Ritika Allada,Pinar Yanardag |
発行日 | 2024-12-24 18:58:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google