Explain To Me: Salience-Based Explainability for Synthetic Face Detection Models

要約

畳み込みニューラル ネットワークのパフォーマンスは、過去 10 年間にわたって向上し続けています。
同時に、モデルの複雑さが増すにつれて、モデルの決定を説明することがますます難しくなります。
このような説明は、人間と機械のペアリング設定の信頼性の高い操作、または多くの同等に正確なモデルの中で「最適な」モデルを確立する必要がある場合のモデル選択にとって非常に重要です。
顕著性マップは、予測を行う際にモデルが重要と見なす画像領域を強調表示することにより、モデルの決定を説明する一般的な方法の 1 つです。
ただし、顕著性マップを大規模に調べることは現実的ではありません。
この論文では、モデルの特徴を活用して大規模なモデルの動作を説明する 5 つの新しい方法を提案します。
これらの方法は、(a) モデルの顕著性マップの平均エントロピーはいくらか、(b) セット外のサンプルを与えられたときにモデルの顕著性はどのように変化するか、(c) モデルの顕著性は幾何学的変換にどれだけ厳密に従うか、(d) を尋ねます。
独立したトレーニング実行全体でのモデルの顕著性の安定性はどのようなものか、(e) モデルの顕著性は顕著性ガイドによる画像の劣化にどのように反応するか。
具体的かつ局所的な問題に対する提案された対策を評価するために、2 種類のモデルを使用して合成顔検出タスクの一連の実験を実施しました。クロスエントロピー損失を使用して伝統的にトレーニングされたモデルと、増加するためのトレーニング時に人間の顕著性によって導かれたモデルです。
モデルの一般化可能性。
これら 2 種類のモデルは、顕著性マップの異なる解釈可能なプロパティによって特徴付けられます。これにより、提案された測定値の正確さを評価できます。
各対策のソースコードを本書とともに提供しています。

要約(オリジナル)

The performance of convolutional neural networks has continued to improve over the last decade. At the same time, as model complexity grows, it becomes increasingly more difficult to explain model decisions. Such explanations may be of critical importance for reliable operation of human-machine pairing setups, or for model selection when the ‘best’ model among many equally-accurate models must be established. Saliency maps represent one popular way of explaining model decisions by highlighting image regions models deem important when making a prediction. However, examining salience maps at scale is not practical. In this paper, we propose five novel methods of leveraging model salience to explain a model behavior at scale. These methods ask: (a) what is the average entropy for a model’s salience maps, (b) how does model salience change when fed out-of-set samples, (c) how closely does model salience follow geometrical transformations, (d) what is the stability of model salience across independent training runs, and (e) how does model salience react to salience-guided image degradations. To assess the proposed measures on a concrete and topical problem, we conducted a series of experiments for the task of synthetic face detection with two types of models: those trained traditionally with cross-entropy loss, and those guided by human salience when training to increase model generalizability. These two types of models are characterized by different, interpretable properties of their salience maps, which allows for the evaluation of the correctness of the proposed measures. We offer source codes for each measure along with this paper.

arxiv情報

著者 Colton Crum,Patrick Tinsley,Aidan Boyd,Jacob Piland,Christopher Sweet,Timothy Kelley,Kevin Bowyer,Adam Czajka
発行日 2023-03-21 16:01:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク