要約
この論文では、テキスト情報に基づいて高品質の 3D 肺 CT 画像を生成する革新的な方法論を紹介します。
医療画像処理では拡散ベースの生成モデルの使用が増えていますが、現在の最先端のアプローチは低解像度の出力に限定されており、放射線医学レポートの豊富な情報が十分に活用されていません。
放射線医学レポートは、追加のガイダンスを提供し、画像の合成に対するきめ細かい制御を提供することで、生成プロセスを強化できます。
それにもかかわらず、テキストガイドによる生成を高解像度の 3D 画像に拡張すると、メモリと解剖学的詳細の保存に重大な課題が生じます。
メモリの問題に対処するために、修正された UNet アーキテクチャを使用する階層スキームを導入します。
まず、テキストに基づいて条件付けされた低解像度画像を合成し、完全な体積データを生成する後続のジェネレーターの基礎として機能します。
生成されたサンプルの解剖学的妥当性を確保するために、CT 画像と組み合わせて血管、気道、小葉のセグメンテーション マスクを生成することで、さらなるガイダンスを提供します。
このモデルは、テキスト入力とセグメンテーション タスクを使用して合成画像を生成する機能を示します。
比較評価の結果は、私たちのアプローチが、特に亀裂線、気道、血管構造などの重要な解剖学的特徴を正確に保持する点で、GAN および拡散技術に基づく最先端のモデルと比較して優れたパフォーマンスを示すことを示しています。
このイノベーションは新たな可能性をもたらします。
この研究は、(1) テキストプロンプトと解剖学的コンポーネントに基づいて画像を作成する方法の開発、および (2) 解剖学的要素に基づいて条件付けされた新しい画像を生成する機能の 2 つの主な目的に焦点を当てています。
画像生成の進歩は、多くの下流タスクを強化するために適用できます。
要約(オリジナル)
This paper introduces an innovative methodology for producing high-quality 3D lung CT images guided by textual information. While diffusion-based generative models are increasingly used in medical imaging, current state-of-the-art approaches are limited to low-resolution outputs and underutilize radiology reports’ abundant information. The radiology reports can enhance the generation process by providing additional guidance and offering fine-grained control over the synthesis of images. Nevertheless, expanding text-guided generation to high-resolution 3D images poses significant memory and anatomical detail-preserving challenges. Addressing the memory issue, we introduce a hierarchical scheme that uses a modified UNet architecture. We start by synthesizing low-resolution images conditioned on the text, serving as a foundation for subsequent generators for complete volumetric data. To ensure the anatomical plausibility of the generated samples, we provide further guidance by generating vascular, airway, and lobular segmentation masks in conjunction with the CT images. The model demonstrates the capability to use textual input and segmentation tasks to generate synthesized images. The results of comparative assessments indicate that our approach exhibits superior performance compared to the most advanced models based on GAN and diffusion techniques, especially in accurately retaining crucial anatomical features such as fissure lines, airways, and vascular structures. This innovation introduces novel possibilities. This study focuses on two main objectives: (1) the development of a method for creating images based on textual prompts and anatomical components, and (2) the capability to generate new images conditioning on anatomical elements. The advancements in image generation can be applied to enhance numerous downstream tasks.
arxiv情報
著者 | Yanwu Xu,Li Sun,Wei Peng,Shuyue Jia,Katelyn Morrison,Adam Perer,Afrooz Zandifar,Shyam Visweswaran,Motahhare Eslami,Kayhan Batmanghelich |
発行日 | 2024-10-15 15:56:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google