Self-Supervised Learning with Limited Labeled Data for Prostate Cancer Detection in High Frequency Ultrasound

要約

高周波、高解像度のマイクロ超音波データのディープラーニングに基づく分析は、前立腺がんの検出に大きな可能性を示しています。
超音波データの分析に対する以前のアプローチは、主に教師あり学習パラダイムに従います。
ディープ ネットワークのトレーニングに使用される超音波画像のグラウンド トゥルース ラベルには、多くの場合、生検によって得られた組織サンプルの組織病理学的分析から生成された粗い注釈が含まれます。
これにより、ラベル付きデータの可用性と品質に固有の制限が生じ、教師あり学習法の成功に大きな課題が生じます。
一方、ラベルのない前立腺の超音波データはより豊富です。
この作業では、自己教師あり表現学習をマイクロ超音波データに適用することに成功しました。
2 つの臨床センターで取得された 391 人の被験者の 1028 の生検コアからの超音波データを使用して、この方法で学習された特徴表現を使用して非がん組織からがんを分類し、独立したテスト セットで 91% の AUROC スコアを取得できることを示します。
私たちの知る限り、これは超音波データを使用した前立腺癌検出のための最初の成功したエンドツーエンドの自己教師あり学習アプローチです。
私たちの方法は、ベースラインの教師あり学習アプローチよりも優れており、さまざまなデータセンター間でうまく一般化し、ラベルのないデータが追加されるにつれてパフォーマンスがうまくスケーリングされるため、大量のラベルのないデータを使用する将来の研究にとって有望なアプローチになります。

要約(オリジナル)

Deep learning-based analysis of high-frequency, high-resolution micro-ultrasound data shows great promise for prostate cancer detection. Previous approaches to analysis of ultrasound data largely follow a supervised learning paradigm. Ground truth labels for ultrasound images used for training deep networks often include coarse annotations generated from the histopathological analysis of tissue samples obtained via biopsy. This creates inherent limitations on the availability and quality of labeled data, posing major challenges to the success of supervised learning methods. On the other hand, unlabeled prostate ultrasound data are more abundant. In this work, we successfully apply self-supervised representation learning to micro-ultrasound data. Using ultrasound data from 1028 biopsy cores of 391 subjects obtained in two clinical centres, we demonstrate that feature representations learnt with this method can be used to classify cancer from non-cancer tissue, obtaining an AUROC score of 91% on an independent test set. To the best of our knowledge, this is the first successful end-to-end self-supervised learning approach for prostate cancer detection using ultrasound data. Our method outperforms baseline supervised learning approaches, generalizes well between different data centers, and scale well in performance as more unlabeled data are added, making it a promising approach for future research using large volumes of unlabeled data.

arxiv情報

著者 Paul F. R. Wilson,Mahdi Gilany,Amoon Jamzad,Fahimeh Fooladgar,Minh Nguyen Nhat To,Brian Wodlinger,Purang Abolmaesumi,Parvin Mousavi
発行日 2022-11-01 15:28:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク