Interpretable HER2 scoring by evaluating clinical Guidelines through a weakly supervised, constrained Deep Learning Approach

要約

ヒト上皮成長因子受容体 2 (HER2) 発現の評価は、乳癌治療の選択における重要な予後バイオマーカーです。
ただし、HER2 スコアリングは、センター間の染色のばらつきと、腫瘍領域の特定の割合で染色強度を視覚的に推定する必要があるため、観察者間の変動性が非常に高いことで有名です。
この論文では、病理学者による HER2 スコアリングの解釈可能性に焦点を当て、米国臨床腫瘍学会/米国病理学者協会 (ASCO
/キャップ)。
最初の段階では、ユーザーが指定した関心領域 (ROI) で浸潤性腫瘍をセグメント化します。
次に、第 2 段階で、腫瘍組織を 4 つの HER2 クラスに分類します。
分類段階では、弱教師付きの制約付き最適化を使用して、腫瘍表面のパーセンテージが各 HER2 クラスのガイドライン仕様を満たすように癌性パッチを分類するモデルを見つけます。
モデルを凍結し、トレーニング セット内のすべてのスライド ラベルに対して監視された方法で出力ロジットを調整することで、第 2 段階を終了します。
データセットのラベルの品質を確保するために、マルチ病理学者の HER2 スコアリング コンセンサスを実施しました。
コンセンサスが見つからなかった疑わしいケースの評価のために、モデルは HER2 クラスのパーセンテージ出力を解釈することで役立ちます。
テスト セットの F1 スコアで 0.78 のパフォーマンスを達成しながら、病理学者にとってモデルを解釈可能に保ち、デジタル病理学における解釈可能な AI モデルに貢献することを願っています。

要約(オリジナル)

The evaluation of the Human Epidermal growth factor Receptor-2 (HER2) expression is an important prognostic biomarker for breast cancer treatment selection. However, HER2 scoring has notoriously high interobserver variability due to stain variations between centers and the need to estimate visually the staining intensity in specific percentages of tumor area. In this paper, focusing on the interpretability of HER2 scoring by a pathologist, we propose a semi-automatic, two-stage deep learning approach that directly evaluates the clinical HER2 guidelines defined by the American Society of Clinical Oncology/ College of American Pathologists (ASCO/CAP). In the first stage, we segment the invasive tumor over the user-indicated Region of Interest (ROI). Then, in the second stage, we classify the tumor tissue into four HER2 classes. For the classification stage, we use weakly supervised, constrained optimization to find a model that classifies cancerous patches such that the tumor surface percentage meets the guidelines specification of each HER2 class. We end the second stage by freezing the model and refining its output logits in a supervised way to all slide labels in the training set. To ensure the quality of our dataset’s labels, we conducted a multi-pathologist HER2 scoring consensus. For the assessment of doubtful cases where no consensus was found, our model can help by interpreting its HER2 class percentages output. We achieve a performance of 0.78 in F1-score on the test set while keeping our model interpretable for the pathologist, hopefully contributing to interpretable AI models in digital pathology.

arxiv情報

著者 Manh Dan Pham,Cyprien Tilmant,Stéphanie Petit,Isabelle Salmon,Saima Ben Hadj,Rutger H. J. Fick
発行日 2022-11-17 14:28:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク