PA-Seg: Learning from Point Annotations for 3D Medical Image Segmentation using Contextual Regularization and Cross Knowledge Distillation

要約

3次元医用画像セグメンテーションにおける畳み込みニューラルネットワーク(CNN)の成功は、取得に時間と労力を要する膨大な学習用フルアノテーション3次元ボリュームに依存する。本論文では、3次元医用画像中の7点のみをセグメンテーションの対象とすることを提案し、2段階の弱教師付き学習フレームワークPA-Segを設計する。第1段階では、測地線距離変換を用いて種点を拡張し、より多くの監視信号を提供する。前者は類似した特徴を持つ画素が一貫したラベルを持つことを推奨し、後者はセグメント化された前景と背景の強度分散をそれぞれ最小化するものである。第2段階では、第1段階で事前学習されたモデルによって得られた予測値を擬似ラベルとして用いる。擬似ラベルのノイズを克服するために、我々は自己学習と、互いに生成したソフトラベルから学習する主モデルと補助モデル間の交差知識蒸留(CKD)を組み合わせた自己・交差モニタリング(SCM)戦略を導入する。前庭神経鞘腫(VS)セグメンテーションと脳腫瘍セグメンテーション(BraTS)の公開データセットに対する実験では、第一段階で学習した我々のモデルは、既存の弱教師付きアプローチよりも大きなマージンをもって優れており、追加学習にSCMを用いた後、モデルはBraTSデータセットにおいて完全教師ありモデルと比較し、競争力を獲得できることが実証された.

要約(オリジナル)

The success of Convolutional Neural Networks (CNNs) in 3D medical image segmentation relies on massive fully annotated 3D volumes for training that are time-consuming and labor-intensive to acquire. In this paper, we propose to annotate a segmentation target with only seven points in 3D medical images, and design a two-stage weakly supervised learning framework PA-Seg. In the first stage, we employ geodesic distance transform to expand the seed points to provide more supervision signal. To further deal with unannotated image regions during training, we propose two contextual regularization strategies, i.e., multi-view Conditional Random Field (mCRF) loss and Variance Minimization (VM) loss, where the first one encourages pixels with similar features to have consistent labels, and the second one minimizes the intensity variance for the segmented foreground and background, respectively. In the second stage, we use predictions obtained by the model pre-trained in the first stage as pseudo labels. To overcome noises in the pseudo labels, we introduce a Self and Cross Monitoring (SCM) strategy, which combines self-training with Cross Knowledge Distillation (CKD) between a primary model and an auxiliary model that learn from soft labels generated by each other. Experiments on public datasets for Vestibular Schwannoma (VS) segmentation and Brain Tumor Segmentation (BraTS) demonstrated that our model trained in the first stage outperforms existing state-of-the-art weakly supervised approaches by a large margin, and after using SCM for additional training, the model can achieve competitive performance compared with the fully supervised counterpart on the BraTS dataset.

arxiv情報

著者 Shuwei Zhai,Guotai Wang,Xiangde Luo,Qiang Yue,Kang Li,Shaoting Zhang
発行日 2022-08-11 07:00:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク