要約
記述的なフリーテキスト入力から3D CTボリュームを生成することは、診断と研究における変革的な機会を提供します。
この論文では、拡散モデルを使用してテキスト説明から3D CTボリュームを合成するための新しいアプローチであるText2CTを紹介します。
固定形式のテキスト入力に依存する以前の方法とは異なり、Text2CTは、多様なフリーテキストの説明から生成を可能にする新しいプロンプトの定式化を採用しています。
提案されたフレームワークは、医療テキストを潜在的な表現にエンコードし、それらを高解像度3D CTスキャンに解読し、統合された3Dフレームワークでセマンティックテキスト入力と詳細なボリューム表現の間のギャップを効果的に埋めます。
私たちの方法は、入力テキストに記載されているように、解剖学的忠実度を保存し、複雑な構造をキャプチャする上で優れた性能を示しています。
広範な評価は、私たちのアプローチが最新の結果を達成し、診断における有望な潜在的なアプリケーションを提供し、データ増強を提供することを示しています。
要約(オリジナル)
Generating 3D CT volumes from descriptive free-text inputs presents a transformative opportunity in diagnostics and research. In this paper, we introduce Text2CT, a novel approach for synthesizing 3D CT volumes from textual descriptions using the diffusion model. Unlike previous methods that rely on fixed-format text input, Text2CT employs a novel prompt formulation that enables generation from diverse, free-text descriptions. The proposed framework encodes medical text into latent representations and decodes them into high-resolution 3D CT scans, effectively bridging the gap between semantic text inputs and detailed volumetric representations in a unified 3D framework. Our method demonstrates superior performance in preserving anatomical fidelity and capturing intricate structures as described in the input text. Extensive evaluations show that our approach achieves state-of-the-art results, offering promising potential applications in diagnostics, and data augmentation.
arxiv情報
著者 | Pengfei Guo,Can Zhao,Dong Yang,Yufan He,Vishwesh Nath,Ziyue Xu,Pedro R. A. S. Bassi,Zongwei Zhou,Benjamin D. Simon,Stephanie Anne Harmon,Baris Turkbey,Daguang Xu |
発行日 | 2025-05-07 15:53:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google