要約
モデルの視覚化などの透明性の方法は、ニューラルネットワークの内部を記述するため、出力だけでは見落とされる可能性のある情報を提供します。
しかし、モデルの説明がモデルの動作を反映していると信じることができますか?
たとえば、バックドアや形状の偏りなどの異常な動作を診断できますか?
モデルの説明を評価するために、モデルが通常のモデルの参照セットと異なる場合は異常として定義し、透明度の方法が異常なモデルと通常のモデルに異なる説明を割り当てるかどうかをテストします。
既存の方法では、形状の偏りや敵対的なトレーニングなどの厳しい異常を検出できますが、不完全なデータでトレーニングされたモデルなど、より微妙な異常を特定するのに苦労していることがわかります。
さらに、それらは一般に、異常な行動を誘発する入力を区別することができません。
バックドアトリガーを含む画像。
これらの結果は、既存のモデルの説明に新しい盲点があることを示しており、さらなるメソッド開発の必要性を示しています。
要約(オリジナル)
Transparency methods such as model visualizations provide information that outputs alone might miss, since they describe the internals of neural networks. But can we trust that model explanations reflect model behavior? For instance, can they diagnose abnormal behavior such as backdoors or shape bias? To evaluate model explanations, we define a model as anomalous if it differs from a reference set of normal models, and we test whether transparency methods assign different explanations to anomalous and normal models. We find that while existing methods can detect stark anomalies such as shape bias or adversarial training, they struggle to identify more subtle anomalies such as models trained on incomplete data. Moreover, they generally fail to distinguish the inputs that induce anomalous behavior, e.g. images containing a backdoor trigger. These results reveal new blind spots in existing model explanations, pointing to the need for further method development.
arxiv情報
著者 | Jean-Stanislas Denain,Jacob Steinhardt |
発行日 | 2022-06-27 17:59:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google