要約
Explainable AI (XAI) は、無数の手法とその有効性を評価することを目的とした指標が提案されている急速に成長している分野です。
ただし、現在の研究は範囲が限られていることが多く、少数の XAI 手法のみを検証し、モデル アーキテクチャや入力データの性質など、パフォーマンスに関する基本的な設計パラメータを無視しています。
さらに、多くの場合、1 つまたは少数の指標に依存し、徹底的な検証を無視するため、選択バイアスのリスクが高まり、指標間の不一致が無視されます。
これらの欠点により、専門家は問題に対してどの方法を選択すればよいか混乱することになります。
これに応えて、20 の異なるメトリクスを使用して 17 の著名な XAI メソッドを批判的に評価する大規模ベンチマークである LATEC を紹介します。
さまざまなアーキテクチャや多様な入力モダリティなどの重要な設計パラメータを体系的に組み込んでおり、その結果、7,560 通りの組み合わせが検討されました。
LATEC を通じて、信頼性の低いランキングにつながる矛盾する指標の高いリスクを示し、その結果、より堅牢な評価スキームを提案します。
さらに、さまざまな XAI 手法を総合的に評価し、実務者のニーズに合わせた適切な手法の選択を支援します。
不思議なことに、新たに登場した最高のパフォーマンスを誇る手法であるExpected Gradientsは、関連するいかなる研究でも検証されていません。
LATEC は、326,000 の顕著性マップと 378,000 のメトリクス スコアをすべて (メタ) 評価データセットとして公開することで、将来の XAI 研究における役割を強化します。
ベンチマークは https://github.com/IML-DKFZ/latec でホストされています。
要約(オリジナル)
Explainable AI (XAI) is a rapidly growing domain with a myriad of proposed methods as well as metrics aiming to evaluate their efficacy. However, current studies are often of limited scope, examining only a handful of XAI methods and ignoring underlying design parameters for performance, such as the model architecture or the nature of input data. Moreover, they often rely on one or a few metrics and neglect thorough validation, increasing the risk of selection bias and ignoring discrepancies among metrics. These shortcomings leave practitioners confused about which method to choose for their problem. In response, we introduce LATEC, a large-scale benchmark that critically evaluates 17 prominent XAI methods using 20 distinct metrics. We systematically incorporate vital design parameters like varied architectures and diverse input modalities, resulting in 7,560 examined combinations. Through LATEC, we showcase the high risk of conflicting metrics leading to unreliable rankings and consequently propose a more robust evaluation scheme. Further, we comprehensively evaluate various XAI methods to assist practitioners in selecting appropriate methods aligning with their needs. Curiously, the emerging top-performing method, Expected Gradients, is not examined in any relevant related study. LATEC reinforces its role in future XAI research by publicly releasing all 326k saliency maps and 378k metric scores as a (meta-)evaluation dataset. The benchmark is hosted at: https://github.com/IML-DKFZ/latec.
arxiv情報
著者 | Lukas Klein,Carsten T. Lüth,Udo Schlegel,Till J. Bungert,Mennatallah El-Assady,Paul F. Jäger |
発行日 | 2024-10-07 15:53:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google