Finer-CAM: Spotting the Difference Reveals Finer Details for Visual Explanation

要約

クラスのアクティベーションマップ(CAM)は、クラスの予測に寄与する画像領域を強調するために広く使用されています。
そのシンプルさと計算効率にもかかわらず、CAMはしばしば、視覚的に類似した細かいクラスを区別する識別地域を特定するのに苦労しています。
以前の努力は、より洗練された説明プロセスを導入することにより、この制限に対処しますが、さらに複雑な犠牲を払っています。
この論文では、識別地域の正確なローカリゼーションを達成しながらCAMの効率を保持する方法であるFiner-Camを提案します。
私たちの重要な洞察は、カムの不足は「どのように」説明するのではなく、「何」と説明するかにあるということです。
具体的には、以前の方法では、ターゲットクラスのロジット値に寄与するすべてのキューを特定しようとします。これは、視覚的に類似したクラスを予測する領域を誤ってアクティブにします。
ターゲットクラスを同様のクラスと明示的に比較し、違いを発見することにより、Finer-Camは他のクラスと共有された機能を抑制し、ターゲットクラスのユニークで差別的な詳細を強調します。
Finer-Camは実装が簡単で、さまざまなCAMメソッドと互換性があり、特定の概念を正確にローカライズするためにマルチモーダルモデルに拡張できます。
さらに、Finer-Camを使用すると、調整可能な比較強度が可能になり、ユーザーが粗いオブジェクトの輪郭や微細な識別の詳細を選択的に強調することができます。
定量的には、より細かいカムで活性化されたピクセルの上位5%をマスクすると、ベースラインと比較して相対的な信頼性が大きくなることが示されています。
ソースコードとデモは、https://github.com/imageomics/finer-camで入手できます。

要約(オリジナル)

Class activation map (CAM) has been widely used to highlight image regions that contribute to class predictions. Despite its simplicity and computational efficiency, CAM often struggles to identify discriminative regions that distinguish visually similar fine-grained classes. Prior efforts address this limitation by introducing more sophisticated explanation processes, but at the cost of extra complexity. In this paper, we propose Finer-CAM, a method that retains CAM’s efficiency while achieving precise localization of discriminative regions. Our key insight is that the deficiency of CAM lies not in ‘how’ it explains, but in ‘what’ it explains. Specifically, previous methods attempt to identify all cues contributing to the target class’s logit value, which inadvertently also activates regions predictive of visually similar classes. By explicitly comparing the target class with similar classes and spotting their differences, Finer-CAM suppresses features shared with other classes and emphasizes the unique, discriminative details of the target class. Finer-CAM is easy to implement, compatible with various CAM methods, and can be extended to multi-modal models for accurate localization of specific concepts. Additionally, Finer-CAM allows adjustable comparison strength, enabling users to selectively highlight coarse object contours or fine discriminative details. Quantitatively, we show that masking out the top 5% of activated pixels by Finer-CAM results in a larger relative confidence drop compared to baselines. The source code and demo are available at https://github.com/Imageomics/Finer-CAM.

arxiv情報

著者 Ziheng Zhang,Jianyang Gu,Arpita Chowdhury,Zheda Mai,David Carlyn,Tanya Berger-Wolf,Yu Su,Wei-Lun Chao
発行日 2025-03-31 15:30:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク