要約
外科データの取得と注釈付けは多くの場合、リソースを大量に消費し、倫理的な制約があり、専門家の多大な関与が必要です。
Text-to-Image のような生成 AI モデルはデータ不足を軽減できますが、セグメンテーション マスクなどの空間アノテーションを組み込むことは、精度を重視した外科アプリケーション、シミュレーション、教育にとって非常に重要です。
この研究では、画像とマスクの同時生成のための新しいタスクとメソッド SimGen の両方を紹介します。
SimGen は、DDPM フレームワークと Residual U-Net に基づく拡散モデルで、高忠実度の手術画像とそれに対応するセグメンテーション マスクを共同生成するように設計されています。
このモデルは相互相関事前分布を活用して、連続画像分布と離散マスク分布の間の依存関係を捕捉します。
さらに、正準フィボナッチ格子 (CFL) が採用され、マスクの RGB 空間におけるクラス分離性と均一性が強化されています。
SimGen は、高忠実度の画像と正確なセグメンテーション マスクを提供し、画像とセマンティック開始距離のメトリクスで評価された 6 つの公開データセット全体でベースラインを上回るパフォーマンスを発揮します。
アブレーション研究では、CFL がマスクの品質と空間分離を改善することが示されています。
下流の実験では、研究のための人間のデータ公開が規制によって制限されている場合、生成された画像とマスクのペアが使用可能であることが示唆されています。
この取り組みは、ペアの手術画像と複雑なラベルを生成するための費用対効果の高いソリューションを提供し、高価な手動アノテーションの必要性を減らして手術 AI 開発を前進させます。
要約(オリジナル)
Acquiring and annotating surgical data is often resource-intensive, ethical constraining, and requiring significant expert involvement. While generative AI models like text-to-image can alleviate data scarcity, incorporating spatial annotations, such as segmentation masks, is crucial for precision-driven surgical applications, simulation, and education. This study introduces both a novel task and method, SimGen, for Simultaneous Image and Mask Generation. SimGen is a diffusion model based on the DDPM framework and Residual U-Net, designed to jointly generate high-fidelity surgical images and their corresponding segmentation masks. The model leverages cross-correlation priors to capture dependencies between continuous image and discrete mask distributions. Additionally, a Canonical Fibonacci Lattice (CFL) is employed to enhance class separability and uniformity in the RGB space of the masks. SimGen delivers high-fidelity images and accurate segmentation masks, outperforming baselines across six public datasets assessed on image and semantic inception distance metrics. Ablation study shows that the CFL improves mask quality and spatial separation. Downstream experiments suggest generated image-mask pairs are usable if regulations limit human data release for research. This work offers a cost-effective solution for generating paired surgical images and complex labels, advancing surgical AI development by reducing the need for expensive manual annotations.
arxiv情報
著者 | Aditya Bhat,Rupak Bose,Chinedu Innocent Nwoye,Nicolas Padoy |
発行日 | 2025-01-15 18:48:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google