Quanda: An Interpretability Toolkit for Training Data Attribution Evaluation and Beyond

要約

近年、トレーニング データ アトリビューション (TDA) 手法が、ニューラル ネットワークの解釈可能性の有望な方向性として浮上しています。
TDA に関する研究は盛んですが、帰属の評価には限られた労力が費やされています。
従来の特徴帰属アプローチの評価指標の開発と同様に、さまざまなコンテキストにわたる TDA 手法の品質を評価するために、いくつかの独立した指標が提案されています。
しかし、体系的な比較を可能にする統一フレームワークの欠如により、TDA 手法への信頼が制限され、その広範な採用が妨げられています。
この研究ギャップに対処するために、TDA 手法の評価を容易にするために設計された Python ツールキットである Quanda を紹介します。
Quanda は、包括的な評価メトリクスのセットを提供するだけでなく、さまざまなリポジトリにわたる既存の TDA 実装とシームレスに統合するための統一インターフェイスを提供し、体系的なベンチマークを可能にします。
このツールキットはユーザーフレンドリーで、徹底的にテストされ、十分に文書化されており、PyPi および https://github.com/dilyabareeva/quanda でオープンソース ライブラリとして利用できます。

要約(オリジナル)

In recent years, training data attribution (TDA) methods have emerged as a promising direction for the interpretability of neural networks. While research around TDA is thriving, limited effort has been dedicated to the evaluation of attributions. Similar to the development of evaluation metrics for traditional feature attribution approaches, several standalone metrics have been proposed to evaluate the quality of TDA methods across various contexts. However, the lack of a unified framework that allows for systematic comparison limits trust in TDA methods and stunts their widespread adoption. To address this research gap, we introduce Quanda, a Python toolkit designed to facilitate the evaluation of TDA methods. Beyond offering a comprehensive set of evaluation metrics, Quanda provides a uniform interface for seamless integration with existing TDA implementations across different repositories, thus enabling systematic benchmarking. The toolkit is user-friendly, thoroughly tested, well-documented, and available as an open-source library on PyPi and under https://github.com/dilyabareeva/quanda.

arxiv情報

著者 Dilyara Bareeva,Galip Ümit Yolcu,Anna Hedström,Niklas Schmolenski,Thomas Wiegand,Wojciech Samek,Sebastian Lapuschkin
発行日 2024-10-10 16:36:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク