Label-efficient Multi-organ Segmentation Method with Diffusion Model

要約

コンピュータ断層撮影 (CT) 画像における複数の臓器の正確なセグメンテーションは、コンピュータ支援診断システムにおいて重要な役割を果たします。
最近、さまざまな教師あり学習アプローチが提案されています。
ただし、これらの方法は大量の高品質のラベル付きデータに大きく依存しており、実際に取得するには費用がかかります。
この研究では、CT画像における多臓器セグメンテーションタスク用の事前トレーニング済み拡散モデルを使用した、ラベル効率の良い学習アプローチを紹介します。
まず、ラベルなしの CT データを使用してノイズ除去拡散モデルをトレーニングし、追加の 2 次元 (2D) CT 画像を生成しました。
次に、事前トレーニングされたノイズ除去拡散ネットワークが下流の多臓器セグメンテーション タスクに転送され、少量のラベル付きデータのみを必要とする半教師あり学習モデルが効果的に作成されました。
さらに、ネットワークのセグメンテーション パフォーマンスを向上させるために、線形分類とデコーダ戦略の微調整が採用されました。
解像度 256×256 の生成モデルは、Fr\’echet 開始距離、空間 Fr\’echet 開始距離、および F1 スコアの点で、それぞれ 11.32、46.93、および 73.1\% の値という優れたパフォーマンスを達成しています。
これらの結果は、拡散モデルが多様で現実的な 2D CT 画像を生成できることを裏付けています。
さらに、私たちの方法は、特に限定されたラベル付きデータシナリオにおいて、FLARE 2022 データセット上の最先端の方法と比較して、競合する多臓器セグメンテーションパフォーマンスを実現します。
注目すべきことに、ラベル付けされたデータが 1\% および 10\% のみであっても、微調整後に、この方法ではそれぞれ 71.56\% および 78.51\% の Dice 類似度係数 (DSC) が達成されます。
この方法では、わずか 4 回のラベル付き CT スキャンを使用して、51.81\% の DSC スコアを達成します。
これらの結果は、大規模なラベル付きデータに大きく依存する教師あり学習の限界を克服する上での私たちのアプローチの有効性を示しています。

要約(オリジナル)

Accurate segmentation of multiple organs in Computed Tomography (CT) images plays a vital role in computer-aided diagnosis systems. Various supervised-learning approaches have been proposed recently. However, these methods heavily depend on a large amount of high-quality labeled data, which is expensive to obtain in practice. In this study, we present a label-efficient learning approach using a pre-trained diffusion model for multi-organ segmentation tasks in CT images. First, a denoising diffusion model was trained using unlabeled CT data, generating additional two-dimensional (2D) CT images. Then the pre-trained denoising diffusion network was transferred to the downstream multi-organ segmentation task, effectively creating a semi-supervised learning model that requires only a small amount of labeled data. Furthermore, linear classification and fine-tuning decoder strategies were employed to enhance the network’s segmentation performance. Our generative model at 256×256 resolution achieves impressive performance in terms of Fr\’echet inception distance, spatial Fr\’echet inception distance, and F1-score, with values of 11.32, 46.93, and 73.1\%, respectively. These results affirm the diffusion model’s ability to generate diverse and realistic 2D CT images. Additionally, our method achieves competitive multi-organ segmentation performance compared to state-of-the-art methods on the FLARE 2022 dataset, particularly in limited labeled data scenarios. Remarkably, even with only 1\% and 10\% labeled data, our method achieves Dice similarity coefficients (DSCs) of 71.56\% and 78.51\% after fine-tuning, respectively. The method achieves a DSC score of 51.81\% using just four labeled CT scans. These results demonstrate the efficacy of our approach in overcoming the limitations of supervised learning heavily reliant on large-scale labeled data.

arxiv情報

著者 Yongzhi Huang,Jinxin Zhu,Haseeb Hassan,Liyilei Su,Jingyu Li,Binding Huang
発行日 2024-02-23 09:25:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク