Characterizing the Interpretability of Attention Maps in Digital Pathology

要約

機械学習モデルの決定を解釈することは、医療などの高リスクのアプリケーションにとって非常に重要です。
デジタルパソロジーでは、大きなスライド画像全体 (WSI) が小さなタイルに分解され、タイルから派生した特徴が注意ベースの複数インスタンス学習 (ABMIL) モデルによって処理されて、WSI レベルのラベルが予測されます。
これらのネットワークはタイル固有のアテンション ウェイトを生成し、解釈しやすくするためにアテンション マップとして視覚化できます。
しかし、これらのマップの標準化された評価フレームワークは不足しており、その信頼性や、モデルを誤解させる可能性のある偽の相関を検出する能力に疑問が生じています。
我々はここで、人工モデル交絡因子を作成し、専用の解釈可能性メトリックを使用することによって、デジタル病理学における関連する特徴に注意を向けるアテンションネットワークの能力を評価するためのフレームワークを提案します。
モデルは、WSI ラベルに関連付けられたタイル変更を含むデータでトレーニングおよび評価され、人工交絡因子に対するモデルの感度と、それらを強調表示する際のアテンション マップの精度の分析が可能になります。
交絡因子は、合成タイルの変更または特定の画像ベースの特徴に基づくタイルのアブレーションを通じて導入され、後者はより臨床的に関連性の高いシナリオを評価するために使用されます。
また、タイル レベルと WSI レベルの両方で、さまざまな交絡因子の量の影響も分析します。
私たちの結果は、ABMIL モデルがフレームワーク内で期待どおりに機能することを示しています。
アテンション マップは一般に関連領域を強調表示しますが、その堅牢性は交絡因子の種類と数に影響されます。
当社の汎用性の高いフレームワークは、さまざまな方法の評価やモデル予測を推進する画像ベースの特徴の探索に使用できる可能性があり、バイオマーカーの発見に役立つ可能性があります。

要約(オリジナル)

Interpreting machine learning model decisions is crucial for high-risk applications like healthcare. In digital pathology, large whole slide images (WSIs) are decomposed into smaller tiles and tile-derived features are processed by attention-based multiple instance learning (ABMIL) models to predict WSI-level labels. These networks generate tile-specific attention weights, which can be visualized as attention maps for interpretability. However, a standardized evaluation framework for these maps is lacking, questioning their reliability and ability to detect spurious correlations that can mislead models. We herein propose a framework to assess the ability of attention networks to attend to relevant features in digital pathology by creating artificial model confounders and using dedicated interpretability metrics. Models are trained and evaluated on data with tile modifications correlated with WSI labels, enabling the analysis of model sensitivity to artificial confounders and the accuracy of attention maps in highlighting them. Confounders are introduced either through synthetic tile modifications or through tile ablations based on their specific image-based features, with the latter being used to assess more clinically relevant scenarios. We also analyze the impact of varying confounder quantities at both the tile and WSI levels. Our results show that ABMIL models perform as desired within our framework. While attention maps generally highlight relevant regions, their robustness is affected by the type and number of confounders. Our versatile framework has the potential to be used in the evaluation of various methods and the exploration of image-based features driving model predictions, which could aid in biomarker discovery.

arxiv情報

著者 Tomé Albuquerque,Anil Yüce,Markus D. Herrmann,Alvaro Gomariz
発行日 2024-07-02 17:58:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク