Scribble-based 3D Multiple Abdominal Organ Segmentation via Triple-branch Multi-dilated Network with Pixel- and Class-wise Consistency

要約

腹部コンピュータ断層撮影 (CT) 画像における多臓器セグメンテーションは、腹部病変の診断とその後の治療計画にとって非常に重要です。
深層学習ベースの手法は高いパフォーマンスを実現していますが、大規模なピクセルレベルのアノテーションに大きく依存しており、取得には時間と労力がかかります。
アノテーションへの依存性が低いため、弱教師セグメンテーションは大きな注目を集めています。
ただし、現在の弱教師あり手法と完全教師あり学習との間には依然として大きなパフォーマンスギャップがあり、探索の余地が残されています。
この研究では、CT からの落書き監視付き複数の腹部臓器セグメンテーションのための 2 つの一貫性制約を持つ新しい 3D フレームワークを提案します。
具体的には、異なる拡張率を使用する 1 つのエンコーダーと 3 つのデコーダーを備えたトリプルブランチ マルチ拡張ネットワーク (TDNet) を採用し、互いに補完的な異なる受容野からの特徴をキャプチャして、高品質のソフト擬似ラベルを生成します。
より安定した教師なし学習のために、ボクセルごとの不確実性を使用してソフト擬似ラベルを修正し、各デコーダーの出力を監視します。
ネットワークをさらに正規化するために、生成されたクラス親和性行列がマルチビュー投影下で異なるデコーダ間で一貫性を持つように促すことにより、クラス関係情報が活用されます。
公開されている WORD データセットでの実験では、私たちの方法が既存の 5 つの落書き教師付き方法よりも優れていることが示されています。

要約(オリジナル)

Multi-organ segmentation in abdominal Computed Tomography (CT) images is of great importance for diagnosis of abdominal lesions and subsequent treatment planning. Though deep learning based methods have attained high performance, they rely heavily on large-scale pixel-level annotations that are time-consuming and labor-intensive to obtain. Due to its low dependency on annotation, weakly supervised segmentation has attracted great attention. However, there is still a large performance gap between current weakly-supervised methods and fully supervised learning, leaving room for exploration. In this work, we propose a novel 3D framework with two consistency constraints for scribble-supervised multiple abdominal organ segmentation from CT. Specifically, we employ a Triple-branch multi-Dilated network (TDNet) with one encoder and three decoders using different dilation rates to capture features from different receptive fields that are complementary to each other to generate high-quality soft pseudo labels. For more stable unsupervised learning, we use voxel-wise uncertainty to rectify the soft pseudo labels and then supervise the outputs of each decoder. To further regularize the network, class relationship information is exploited by encouraging the generated class affinity matrices to be consistent across different decoders under multi-view projection. Experiments on the public WORD dataset show that our method outperforms five existing scribble-supervised methods.

arxiv情報

著者 Meng Han,Xiangde Luo,Wenjun Liao,Shichuan Zhang,Shaoting Zhang,Guotai Wang
発行日 2023-09-18 12:50:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク