Prototype-based Interpretable Breast Cancer Prediction Models: Analysis and Challenges

要約

深層学習モデルは医療アプリケーションで高いパフォーマンスを実現していますが、そのブラックボックス的な性質により臨床現場での導入が妨げられています。
プロトタイプベースのモデルのような自己説明可能なモデルは、設計によって解釈可能なため、特に有益です。
ただし、学習されたプロトタイプの品質が低い場合、プロトタイプベースのモデルはブラックボックスと同じになります。
高品質のプロトタイプを作成することは、真に解釈可能なモデルの前提条件です。
本研究では、ドメイン知識に基づいてプロトタイプの品質を定量的に評価するための、一貫性のためのプロトタイプ評価フレームワーク (PEF-C) を提案します。
マンモグラフィーを使用した乳がん予測の文脈における PEF-C の使用を示します。
マンモグラフィーを使用した乳がん予測に関​​するプロトタイプベースのモデルに関する既存の研究は、ブラックボックスモデルと比較してプロトタイプベースのモデルの分類パフォーマンスを向上させることに重点を置き、事例証拠を通じてプロトタイプの品質を評価してきました。
当社は、事例証拠を超えて、PEF-C を使用してマンモグラフィーのプロトタイプの品質を系統的に評価した最初の企業です。
具体的には、乳がん予測のために、ProtoPNet、BRAIxProtoPNet++、PIP-Net という 3 つの最先端のプロトタイプベースのモデルをマンモグラフィー画像に適用し、これらのモデルを総合的に評価します。
3 つの公開データセットに関する i) 分類パフォーマンス、および ii) プロトタイプの品質。
私たちの結果は、プロトタイプベースのモデルが分類パフォーマンスの点でブラックボックス モデルと競合し、ROI の検出においてより高いスコアを達成することを示しています。
ただし、プロトタイプの品質はまだ十分ではなく、関連性、純度、さまざまなプロトタイプの学習の面で改善の余地があります。
私たちは XAI コミュニティにプロトタイプの品質を体系的に評価して、一か八かの意思決定における真の使いやすさを確認し、そのようなモデルをさらに改善するよう呼びかけています。

要約(オリジナル)

Deep learning models have achieved high performance in medical applications, however, their adoption in clinical practice is hindered due to their black-box nature. Self-explainable models, like prototype-based models, can be especially beneficial as they are interpretable by design. However, if the learnt prototypes are of low quality then the prototype-based models are as good as black-box. Having high quality prototypes is a pre-requisite for a truly interpretable model. In this work, we propose a prototype evaluation framework for coherence (PEF-C) for quantitatively evaluating the quality of the prototypes based on domain knowledge. We show the use of PEF-C in the context of breast cancer prediction using mammography. Existing works on prototype-based models on breast cancer prediction using mammography have focused on improving the classification performance of prototype-based models compared to black-box models and have evaluated prototype quality through anecdotal evidence. We are the first to go beyond anecdotal evidence and evaluate the quality of the mammography prototypes systematically using our PEF-C. Specifically, we apply three state-of-the-art prototype-based models, ProtoPNet, BRAIxProtoPNet++ and PIP-Net on mammography images for breast cancer prediction and evaluate these models w.r.t. i) classification performance, and ii) quality of the prototypes, on three public datasets. Our results show that prototype-based models are competitive with black-box models in terms of classification performance, and achieve a higher score in detecting ROIs. However, the quality of the prototypes are not yet sufficient and can be improved in aspects of relevance, purity and learning a variety of prototypes. We call the XAI community to systematically evaluate the quality of the prototypes to check their true usability in high stake decisions and improve such models further.

arxiv情報

著者 Shreyasi Pathak,Jörg Schlötterer,Jeroen Veltman,Jeroen Geerdink,Maurice van Keulen,Christin Seifert
発行日 2024-03-29 16:08:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク