Weakly Supervised Learning for Breast Cancer Prediction on Mammograms in Realistic Settings

要約

マンモグラフィーによる乳がんの自動早期検出方法により、死亡率が大幅に減少します。
これらの方法には制約が多すぎるため、病院でのこれらの方法の広範な導入は現在妨げられています。
これらは、単一の画像または関心領域 (ROI) に対してもアノテーションが利用可能であり、患者あたりの画像数が固定であることを前提としています。
どちらの仮定も一般病院では当てはまりません。
これらの仮定を緩和すると、弱い教師あり学習設定になり、ラベルはケースごとに利用可能ですが、個々の画像や ROI に対しては利用できなくなります。
患者のために撮影されたすべての画像が悪性領域を含むわけではなく、悪性 ROI は画像のごく一部のみをカバーしますが、ほとんどの画像領域は良性組織を表します。
この研究では、2 つの公開データセット (1.6,000 例と 5,000 例) および 21,000 例の社内データセットを使用して、症例レベルの乳がんを予測するための 2 レベルのマルチインスタンス学習 (MIL) アプローチを調査します。
乳がんは通常片側にのみ存在し、予防策として両方の乳房の画像が撮影されることを観察して、ドメイン固有の MIL プーリングのバリアントを提案します。
我々は、症例ラベルと患者ごとの可変数の画像のみが利用可能な現実的な臨床設定に、2 レベルの MIL を適用できることを示します。
現実的な設定でのデータは、継続的な患者の摂取に応じてスケールされますが、手動によるアノテーションの取り組みではスケールしません。
したがって、すべての患者の乳がん予測を向上させるために、研究は特に教師なし ROI 抽出に焦点を当てる必要があります。

要約(オリジナル)

Automatic methods for early detection of breast cancer on mammography can significantly decrease mortality. Broad uptake of those methods in hospitals is currently hindered because the methods have too many constraints. They assume annotations available for single images or even regions-of-interest (ROIs), and a fixed number of images per patient. Both assumptions do not hold in a general hospital setting. Relaxing those assumptions results in a weakly supervised learning setting, where labels are available per case, but not for individual images or ROIs. Not all images taken for a patient contain malignant regions and the malignant ROIs cover only a tiny part of an image, whereas most image regions represent benign tissue. In this work, we investigate a two-level multi-instance learning (MIL) approach for case-level breast cancer prediction on two public datasets (1.6k and 5k cases) and an in-house dataset of 21k cases. Observing that breast cancer is usually only present in one side, while images of both breasts are taken as a precaution, we propose a domain-specific MIL pooling variant. We show that two-level MIL can be applied in realistic clinical settings where only case labels, and a variable number of images per patient are available. Data in realistic settings scales with continuous patient intake, while manual annotation efforts do not. Hence, research should focus in particular on unsupervised ROI extraction, in order to improve breast cancer prediction for all patients.

arxiv情報

著者 Shreyasi Pathak,Jörg Schlötterer,Jeroen Geerdink,Onno Dirk Vijlbrief,Maurice van Keulen,Christin Seifert
発行日 2023-10-19 12:14:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク