EMIT-Diff: Enhancing Medical Image Segmentation via Text-Guided Diffusion Model

要約

大規模で変化量が大きく、高品質のデータは、汎化パフォーマンスの向上と過剰適合の回避を可能にする可能性があるため、医療アプリケーション向けの堅牢で成功した深層学習モデルを開発するために非常に重要です。
ただし、高品質のラベル付きデータが不足しているため、常に大きな課題が生じます。
この論文では、EMIT-Diff と呼ばれる医療画像合成用の制御可能な拡散モデルを開発することで、この課題に対処する新しいアプローチを提案します。
私たちは、最近の拡散確率モデルを活用して、合成プロセスをガイドするオブジェクトのエッジ情報を組み込むことにより、元の医用画像の本質的な特徴を保存する現実的で多様な合成医用画像データを生成します。
私たちのアプローチでは、合成サンプルが医学的に関連する制約を遵守し、イメージング データの基礎となる構造を確実に保存します。
拡散モデルによるランダムなサンプリング処理により、さまざまな外観を持つ任意の数の合成画像を生成できます。
提案した方法の有効性を検証するために、乳房超音波 (+13.87%)、脾臓 CT (+0.38%)、前立腺 MRI (+7.78%) を含む複数のデータセットに対して広範な医療画像セグメンテーション実験を実施し、
ベースラインのセグメンテーション方法に比べて大幅に改善されました。
私たちの知る限りでは、この有望な結果は、医用画像セグメンテーション タスクに対する EMIT-Diff の有効性を初めて実証し、一般的な医用画像セグメンテーション タスクに史上初のテキストガイド付き拡散モデルを導入する実現可能性を示しています。
慎重に設計されたアブレーション実験により、さまざまなデータ拡張率、ハイパーパラメータ設定、ランダムマージマスク設定を生成するためのパッチサイズ、およびさまざまなネットワークアーキテクチャと組み合わせた影響の影響を調査します。

要約(オリジナル)

Large-scale, big-variant, and high-quality data are crucial for developing robust and successful deep-learning models for medical applications since they potentially enable better generalization performance and avoid overfitting. However, the scarcity of high-quality labeled data always presents significant challenges. This paper proposes a novel approach to address this challenge by developing controllable diffusion models for medical image synthesis, called EMIT-Diff. We leverage recent diffusion probabilistic models to generate realistic and diverse synthetic medical image data that preserve the essential characteristics of the original medical images by incorporating edge information of objects to guide the synthesis process. In our approach, we ensure that the synthesized samples adhere to medically relevant constraints and preserve the underlying structure of imaging data. Due to the random sampling process by the diffusion model, we can generate an arbitrary number of synthetic images with diverse appearances. To validate the effectiveness of our proposed method, we conduct an extensive set of medical image segmentation experiments on multiple datasets, including Ultrasound breast (+13.87%), CT spleen (+0.38%), and MRI prostate (+7.78%), achieving significant improvements over the baseline segmentation methods. For the first time, to our best knowledge, the promising results demonstrate the effectiveness of our EMIT-Diff for medical image segmentation tasks and show the feasibility of introducing a first-ever text-guided diffusion model for general medical image segmentation tasks. With carefully designed ablation experiments, we investigate the influence of various data augmentation ratios, hyper-parameter settings, patch size for generating random merging mask settings, and combined influence with different network architectures.

arxiv情報

著者 Zheyuan Zhang,Lanhong Yao,Bin Wang,Debesh Jha,Elif Keles,Alpay Medetalibeyoglu,Ulas Bagci
発行日 2023-10-19 16:18:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク