要約
マルチ インスタンス学習 (MIL) メソッドにより、スライド レベルの注釈のみを使用したギガピクセルのスライド全体画像 (WSI) 分析が可能になります。
このようなアルゴリズムを一か八かの医療分野に安全に導入するには、解釈可能性が重要です。
従来の MIL メソッドは、顕著な領域を強調表示することによって説明を提供します。
ただし、このような空間ヒートマップがエンド ユーザーに提供する洞察は限られています。
これに対処するために、人間が理解できる病理概念を使用して説明を生成する、本質的に解釈可能な新しい WSI 分類アプローチを提案します。
私たちが提案するコンセプト MIL モデルは、視覚言語モデルの最近の進歩を利用して、画像の特徴に基づいて病理学の概念を直接予測します。
モデルの予測は、WSI の上位 K 個のパッチで特定された概念の線形結合を通じて取得され、予測に対する各概念の影響を追跡することで固有の説明が可能になります。
従来の概念ベースの解釈可能なモデルとは対照的に、私たちのアプローチでは、ビジョン言語モデルを活用することで、コストのかかる人間による注釈の必要性を排除します。
私たちは、広く使用されている 2 つの病理学データセット、Camelyon16 と PANDA でこの方法を検証します。
どちらのデータセットでも、Concept MIL は 0.9 を超える AUC と精度スコアを達成し、最先端のモデルと同等の値を示しています。
さらに、上位 20 パッチの 87.1\% (Camelyon16) と 85.3\% (PANDA) が腫瘍領域内にあることがわかりました。
ユーザー調査では、私たちのモデルによって特定された概念が病理学者が使用する概念と一致しており、人間が解釈可能な WSI 分類の有望な戦略となっていることが示されています。
要約(オリジナル)
Multiple Instance Learning (MIL) methods allow for gigapixel Whole-Slide Image (WSI) analysis with only slide-level annotations. Interpretability is crucial for safely deploying such algorithms in high-stakes medical domains. Traditional MIL methods offer explanations by highlighting salient regions. However, such spatial heatmaps provide limited insights for end users. To address this, we propose a novel inherently interpretable WSI-classification approach that uses human-understandable pathology concepts to generate explanations. Our proposed Concept MIL model leverages recent advances in vision-language models to directly predict pathology concepts based on image features. The model’s predictions are obtained through a linear combination of the concepts identified on the top-K patches of a WSI, enabling inherent explanations by tracing each concept’s influence on the prediction. In contrast to traditional concept-based interpretable models, our approach eliminates the need for costly human annotations by leveraging the vision-language model. We validate our method on two widely used pathology datasets: Camelyon16 and PANDA. On both datasets, Concept MIL achieves AUC and accuracy scores over 0.9, putting it on par with state-of-the-art models. We further find that 87.1\% (Camelyon16) and 85.3\% (PANDA) of the top 20 patches fall within the tumor region. A user study shows that the concepts identified by our model align with the concepts used by pathologists, making it a promising strategy for human-interpretable WSI classification.
arxiv情報
著者 | Susu Sun,Leslie Tessier,Frédérique Meeuwsen,Clément Grisi,Dominique van Midden,Geert Litjens,Christian F. Baumgartner |
発行日 | 2025-01-06 11:03:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google