Enhancing breast cancer detection on screening mammogram using self-supervised learning and a hybrid deep model of Swin Transformer and Convolutional Neural Network

要約

目的:高品質のキュレートされた標識医療訓練データの希少性は、乳がん診断に人工知能(AI)システムを適用することにおける主要な制限の1つです。
マンモグラム分析と質量(またはマイクロ計算)の検出のための深いモデルには、多くの場合、収集するのに時間がかかり、時間がかかる大量のラベル付き画像でトレーニングが必要です。
この課題を減らすために、局所的な自己触媒と細粒の特徴抽出を組み合わせてマンモグラムのスクリーニング時の乳がん検出を強化する\ textBf {hybmnet}という名前の自己科学学習(SSL)とディープハイブリッドモデルを活用する新しい方法を提案しました。
アプローチ:私たちの方法では、2段階の学習プロセスを採用しています。(1)SSL Pretraining:SSL技術であるESVITを利用して、限られたマンモグラムを使用してSWINトランス(SWIN-T)を取得します。
その後、前提条件のSwin-Tは、下流タスクのバックボーンとして機能します。
(2)ダウンストリームトレーニング:提案されたHybMnetは、SWIN-TバックボーンとCNNベースのネットワークと新しい融合戦略を組み合わせています。
SWIN-Tは、局所的な自己関節を採用して、高解像度マンモグラムから有益なパッチ領域を特定し、CNNベースのネットワークは選択したパッチから微調整されたローカル機能を抽出します。
次に、融合モジュールは、両方のネットワークからグローバル情報とローカル情報を統合して、堅牢な予測を生成します。
HybMNetはエンドツーエンドでトレーニングされており、損失関数はSWIN-TとCNNモジュールの出力を組み合わせて、特徴の抽出と分類のパフォーマンスを最適化します。
結果:提案された方法は、良性(正常)と悪性マンモグラムを区別することにより、乳がんを検出する能力について評価されました。
SSLプレトレーニングとHybMNETモデルを活用して、CMMDデータセットで0.864(95%CI:0.852、0.875)のAUCを達成し、0.889(95%CI:0.875、0.903)をbreastデータセットで達成し、その効果を強調しました。

要約(オリジナル)

Purpose: The scarcity of high-quality curated labeled medical training data remains one of the major limitations in applying artificial intelligence (AI) systems to breast cancer diagnosis. Deep models for mammogram analysis and mass (or micro-calcification) detection require training with a large volume of labeled images, which are often expensive and time-consuming to collect. To reduce this challenge, we proposed a novel method that leverages self-supervised learning (SSL) and a deep hybrid model, named \textbf{HybMNet}, which combines local self-attention and fine-grained feature extraction to enhance breast cancer detection on screening mammograms. Approach: Our method employs a two-stage learning process: (1) SSL Pretraining: We utilize EsViT, a SSL technique, to pretrain a Swin Transformer (Swin-T) using a limited set of mammograms. The pretrained Swin-T then serves as the backbone for the downstream task. (2) Downstream Training: The proposed HybMNet combines the Swin-T backbone with a CNN-based network and a novel fusion strategy. The Swin-T employs local self-attention to identify informative patch regions from the high-resolution mammogram, while the CNN-based network extracts fine-grained local features from the selected patches. A fusion module then integrates global and local information from both networks to generate robust predictions. The HybMNet is trained end-to-end, with the loss function combining the outputs of the Swin-T and CNN modules to optimize feature extraction and classification performance. Results: The proposed method was evaluated for its ability to detect breast cancer by distinguishing between benign (normal) and malignant mammograms. Leveraging SSL pretraining and the HybMNet model, it achieved AUC of 0.864 (95% CI: 0.852, 0.875) on the CMMD dataset and 0.889 (95% CI: 0.875, 0.903) on the INbreast dataset, highlighting its effectiveness.

arxiv情報

著者 Han Chen,Anne L. Martel
発行日 2025-04-28 15:23:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク