MetaCAM: Ensemble-Based Class Activation Map

要約

ディープ ラーニング モデルの予測に関する明確で信頼できる説明の必要性は、医療や生体認証などの重要性の高い分野では不可欠です。
クラス アクティベーション マップ (CAM) は、畳み込みニューラル ネットワーク (CNN) の視覚的な説明方法のカテゴリとしてますます人気が高まっています。
ただし、個々の CAM のパフォーマンスは、選択した画像、ターゲット クラス、モデルなどの実験パラメータに大きく依存します。
ここでは、コンポーネント CAM 全体で最も高活性化された上位 k% ピクセルのコンセンサスに基づいて、複数の既存の CAM 手法を組み合わせるアンサンブルベースの手法である MetaCAM を提案します。
私たちは、特定の MetaCAM 実験に対して 11 個の CAM の最適な組み合わせを定量的に決定するために実験を実行します。
大規模なアンサンブルベースの実験を要約するために、累積残差効果 (CRE) と呼ばれる新しい方法が提案されています。
また、適応型しきい値処理を示し、それを個々の CAM に適用してパフォーマンスを向上させる方法を示します。これは、ピクセル摂動法である Remove and Debias (ROAD) を使用して測定されます。
最後に、MetaCAM が既存の CAM よりも優れたパフォーマンスを示し、モデル予測に使用される画像の最も顕著な領域を洗練することを示します。
特定の例では、-0.101 ~ 0.172 の範囲の 11 個の個別の CAM と比較して、MetaCAM は ROAD パフォーマンスを 0.393 に向上させ、アンサンブル手法と適応しきい値処理を通じて CAM を組み合わせる重要性を示しています。

要約(オリジナル)

The need for clear, trustworthy explanations of deep learning model predictions is essential for high-criticality fields, such as medicine and biometric identification. Class Activation Maps (CAMs) are an increasingly popular category of visual explanation methods for Convolutional Neural Networks (CNNs). However, the performance of individual CAMs depends largely on experimental parameters such as the selected image, target class, and model. Here, we propose MetaCAM, an ensemble-based method for combining multiple existing CAM methods based on the consensus of the top-k% most highly activated pixels across component CAMs. We perform experiments to quantifiably determine the optimal combination of 11 CAMs for a given MetaCAM experiment. A new method denoted Cumulative Residual Effect (CRE) is proposed to summarize large-scale ensemble-based experiments. We also present adaptive thresholding and demonstrate how it can be applied to individual CAMs to improve their performance, measured using pixel perturbation method Remove and Debias (ROAD). Lastly, we show that MetaCAM outperforms existing CAMs and refines the most salient regions of images used for model predictions. In a specific example, MetaCAM improved ROAD performance to 0.393 compared to 11 individual CAMs with ranges from -0.101-0.172, demonstrating the importance of combining CAMs through an ensembling method and adaptive thresholding.

arxiv情報

著者 Emily Kaczmarek,Olivier X. Miguel,Alexa C. Bowie,Robin Ducharme,Alysha L. J. Dingwall-Harvey,Steven Hawken,Christine M. Armour,Mark C. Walker,Kevin Dick
発行日 2023-07-31 17:20:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク