要約
デジタル全体スライド画像 (WSI) は通常、顕微鏡解像度でキャプチャされ、広範な空間データが含まれます。
これらの画像を深層学習モデルに直接フィードすることは、メモリの制約により計算的に扱いにくく、WSI をダウンサンプリングすると情報損失が発生するリスクがあります。
あるいは、WSI をより小さなパッチに分割すると、重要なコンテキスト情報が失われる可能性があります。
この論文では、病理学者の視覚的検査プロセスにヒントを得た 2 つの主要なコンポーネントで構成される、新しいデュアル アテンション アプローチを提案します。最初のソフト アテンション モデルは、WSI の低倍率ビューを処理して、関連する関心領域を特定します。
カスタム サンプリング方法により、選択された ROI から多様で空間的に異なる画像タイルを抽出します。
2 番目のコンポーネントであるハード アテンション分類モデルは、分類のために各タイルから一連の多重解像度の一目をさらに抽出します。
ハード アテンションは微分不可能であるため、強化学習を使用してこのコンポーネントをトレーニングし、垣間の位置を予測します。
このアプローチにより、モデルはタイル全体を処理するのではなく、重要な領域に焦点を当てることができるため、病理学者の診断方法と一致します。
2 つのコンポーネントは、モデルの有効性を実証するために、関節損失関数を使用してエンドツーエンド方式でトレーニングされます。
提案されたモデルは、2 つの WSI レベルの分類問題で評価されました。乳がんの組織学画像におけるヒト上皮成長因子受容体 2 のスコアリングと、結腸直腸がんの組織学画像からの 2 つのミスマッチ修復バイオマーカーの無傷/喪失状態の予測です。
提案されたモデルは、最高倍率で WSI の 10% 未満を処理し、WSI レベルのラベルを推論するのに必要な時間を 10% 以上短縮しながら、最先端の手法よりも優れた、または同等のパフォーマンスを達成することを示します。
75%。
要約(オリジナル)
Digital whole slide images (WSIs) are generally captured at microscopic resolution and encompass extensive spatial data. Directly feeding these images to deep learning models is computationally intractable due to memory constraints, while downsampling the WSIs risks incurring information loss. Alternatively, splitting the WSIs into smaller patches may result in a loss of important contextual information. In this paper, we propose a novel dual attention approach, consisting of two main components, both inspired by the visual examination process of a pathologist: The first soft attention model processes a low magnification view of the WSI to identify relevant regions of interest, followed by a custom sampling method to extract diverse and spatially distinct image tiles from the selected ROIs. The second component, the hard attention classification model further extracts a sequence of multi-resolution glimpses from each tile for classification. Since hard attention is non-differentiable, we train this component using reinforcement learning to predict the location of the glimpses. This approach allows the model to focus on essential regions instead of processing the entire tile, thereby aligning with a pathologist’s way of diagnosis. The two components are trained in an end-to-end fashion using a joint loss function to demonstrate the efficacy of the model. The proposed model was evaluated on two WSI-level classification problems: Human epidermal growth factor receptor 2 scoring on breast cancer histology images and prediction of Intact/Loss status of two Mismatch Repair biomarkers from colorectal cancer histology images. We show that the proposed model achieves performance better than or comparable to the state-of-the-art methods while processing less than 10% of the WSI at the highest magnification and reducing the time required to infer the WSI-level label by more than 75%.
arxiv情報
著者 | Manahil Raza,Ruqayya Awan,Raja Muhammad Saad Bashir,Talha Qaiser,Nasir M. Rajpoot |
発行日 | 2024-11-21 16:29:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google