Beyond Faithfulness: A Framework to Characterize and Compare Saliency Methods

要約

顕著性法は、各入力特徴が機械学習モデルの予測にどれだけ重要であるかを計算し、モデルの推論を理解するために一般的に使用される。忠実性」とは、顕著性出力が基礎となるモデルをどれだけ完全かつ正確に反映しているかということであり、これらの手法の望ましさとしてよく言及されるものである。しかし、説明手法は、単純化などのユーザ指向の目標のために、ある種の情報を犠牲にしなければならない。このため、我々は、パフォーマンスメトリクスのように、顕著性メソッドを抽象化し、モデル動作の特定の側面への洞察を提供し、トレードオフを伴う個々のツールに分類する。このフレームワークを用いて、我々は顕著性手法の特性を特徴付け、比較するための9つの次元のフレームワークを説明する。これらの次元は、解釈プロセスの異なるフェーズに対応する3つのカテゴリにグループ分けされる:方法論、または顕著性の計算方法、感度、または顕著性の結果と基礎となるモデルまたは入力との関係、そして、知覚性、またはユーザーがどのように結果を解釈するのか。例えば、ドキュメントとして「顕著性カード」を開発したり、下流のユーザーがトレードオフを理解し、特定のユースケースのために手法を選択することを支援することが可能になります。さらに、このフレームワークの中で既存の顕著性手法を位置づけることにより、状況のギャップを埋め、新しい評価指標を開発するなど、将来の研究の機会を特定することができます。

要約(オリジナル)

Saliency methods calculate how important each input feature is to a machine learning model’s prediction, and are commonly used to understand model reasoning. ‘Faithfulness’, or how fully and accurately the saliency output reflects the underlying model, is an oft-cited desideratum for these methods. However, explanation methods must necessarily sacrifice certain information in service of user-oriented goals such as simplicity. To that end, and akin to performance metrics, we frame saliency methods as abstractions: individual tools that provide insight into specific aspects of model behavior and entail tradeoffs. Using this framing, we describe a framework of nine dimensions to characterize and compare the properties of saliency methods. We group these dimensions into three categories that map to different phases of the interpretation process: methodology, or how the saliency is calculated; sensitivity, or relationships between the saliency result and the underlying model or input; and, perceptibility, or how a user interprets the result. As we show, these dimensions give us a granular vocabulary for describing and comparing saliency methods — for instance, allowing us to develop ‘saliency cards’ as a form of documentation, or helping downstream users understand tradeoffs and choose a method for a particular use case. Moreover, by situating existing saliency methods within this framework, we identify opportunities for future work, including filling gaps in the landscape and developing new evaluation metrics.

arxiv情報

著者 Angie Boggust,Harini Suresh,Hendrik Strobelt,John V. Guttag,Arvind Satyanarayan
発行日 2022-06-07 01:21:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG パーマリンク