Diff-Ensembler: Learning to Ensemble 2D Diffusion Models for Volume-to-Volume Medical Image Translation


医療画像における体積間の変換には成功していますが、既存のモデルのほとんどは、3D 表現を使用して固有の体積分布を効果的にキャプチャするのに苦労しています。
現在の最先端のアプローチでは、加重平均を通じて複数の 2D ベースのネットワークを結合するため、3D 空間構造が無視されます。
医用画像処理で 3D モデルを直接トレーニングするには、高い計算量と大規模なデータセットが必要なため、大きな課題が生じます。
これらの課題に対処するために、各拡散ステップで垂直にトレーニングされた 2D 拡散モデルを 3D ネットワークとアンサンブルすることにより、効率的かつ効果的な体積変換を実現する新しいハイブリッド 2D-3D モデルである Diff-Ensembler を導入します。
広範な実験により、Diff-Ensembler が 3D 医療画像の超解像度とモダリティ変換において優れた精度と体積リアリズムを達成できることが実証されています。


Despite success in volume-to-volume translations in medical images, most existing models struggle to effectively capture the inherent volumetric distribution using 3D representations. The current state-of-the-art approach combines multiple 2D-based networks through weighted averaging, thereby neglecting the 3D spatial structures. Directly training 3D models in medical imaging presents significant challenges due to high computational demands and the need for large-scale datasets. To address these challenges, we introduce Diff-Ensembler, a novel hybrid 2D-3D model for efficient and effective volumetric translations by ensembling perpendicularly trained 2D diffusion models with a 3D network in each diffusion step. Moreover, our model can naturally be used to ensemble diffusion models conditioned on different modalities, allowing flexible and accurate fusion of input conditions. Extensive experiments demonstrate that Diff-Ensembler attains superior accuracy and volumetric realism in 3D medical image super-resolution and modality translation. We further demonstrate the strength of our model’s volumetric realism using tumor segmentation as a downstream task.


著者 Xiyue Zhu,Dou Hoon Kwark,Ruike Zhu,Kaiwen Hong,Yiqi Tao,Shirui Luo,Yudu Li,Zhi-Pei Liang,Volodymyr Kindratenko
発行日 2025-01-13 15:54:21+00:00
arxivサイト arxiv_id(pdf)

