From Anecdotal Evidence to Quantitative Evaluation Methods: A Systematic Review on Evaluating Explainable AI

要約

高性能のブラック ボックスを理解するための説明可能な人工知能 (XAI) の人気が高まっているため、機械学習 (ML) モデルの説明をどのように評価するかという問題が提起されました。
解釈可能性と説明可能性は、主観的に検証されたバイナリ プロパティとして提示されることがよくありますが、それは多面的な概念であると考えています。
説明の品質を包括的に評価するために評価する必要がある、Compactness や Correctness などの 12 の概念プロパティを識別します。
当社のいわゆる Co-12 プロパティは、XAI メソッドを紹介する主要な AI および ML カンファレンスで過去 7 年間に発表された 300 以上の論文の評価プラクティスを体系的にレビューするための分類スキームとして機能します。
論文の 3 分の 1 は事例証拠だけで評価し、論文の 5 分の 1 はユーザーで評価しています。
この調査は、定量的な XAI 評価方法の広範な概要を提示することにより、客観的で定量化可能な評価方法の呼びかけにも貢献します。
当社の体系的な評価方法のコレクションは、研究者や実務家に、新規および既存の XAI 方法を徹底的に検証、ベンチマーク、および比較するための具体的なツールを提供します。
Co-12 分類スキームと特定された評価方法により、精度と解釈可能性を同時に最適化するために、モデルのトレーニング中に定量的指標を最適化基準として含める機会が開かれます。

要約(オリジナル)

The rising popularity of explainable artificial intelligence (XAI) to understand high-performing black boxes raised the question of how to evaluate explanations of machine learning (ML) models. While interpretability and explainability are often presented as a subjectively validated binary property, we consider it a multi-faceted concept. We identify 12 conceptual properties, such as Compactness and Correctness, that should be evaluated for comprehensively assessing the quality of an explanation. Our so-called Co-12 properties serve as categorization scheme for systematically reviewing the evaluation practices of more than 300 papers published in the last 7 years at major AI and ML conferences that introduce an XAI method. We find that 1 in 3 papers evaluate exclusively with anecdotal evidence, and 1 in 5 papers evaluate with users. This survey also contributes to the call for objective, quantifiable evaluation methods by presenting an extensive overview of quantitative XAI evaluation methods. Our systematic collection of evaluation methods provides researchers and practitioners with concrete tools to thoroughly validate, benchmark and compare new and existing XAI methods. The Co-12 categorization scheme and our identified evaluation methods open up opportunities to include quantitative metrics as optimization criteria during model training in order to optimize for accuracy and interpretability simultaneously.

arxiv情報

著者 Meike Nauta,Jan Trienes,Shreyasi Pathak,Elisa Nguyen,Michelle Peters,Yasmin Schmitt,Jörg Schlötterer,Maurice van Keulen,Christin Seifert
発行日 2023-02-24 13:47:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク