要約
テキストの説明から現実的な医療画像の生成は、患者のプライバシーを維持しながら、ヘルスケアAIのデータ不足の課題に対処する重要な可能性を秘めています。
このホワイトペーパーでは、医療ドメインでのテキスト間合成の包括的な研究を提示し、2つの異なるアプローチを比較しています。(1)微調整する大規模な訓練を受けた潜在拡散モデルと(2)小規模なドメイン固有のモデルのトレーニング。
MSDMという名前の新しいモデルを紹介します。これは、臨床テキストエンコーダー、変分自動エンコーダー、およびクロスアテンションメカニズムを統合する安定した拡散に基づいた最適化されたアーキテクチャであり、医療テキストプロンプトと生成された画像をより適切に調整します。
私たちの研究では、2つのアプローチを比較しています。つまり、大規模な事前訓練モデル(Flux、Kandinsky)とコンパクトドメイン固有のモデル(MSDM)のトレーニングです。
大腸内視鏡検査(MEDVQA-GI)および放射線学(ROCOV2)データセット全体の評価により、大規模なモデルはより高い忠実度を達成しますが、最適化されたMSDMは、計算コストが低いと同等の品質を提供することが明らかになりました。
医療専門家による定量的指標と定性的評価は、各アプローチの長所と制限を明らかにします。
要約(オリジナル)
The generation of realistic medical images from text descriptions has significant potential to address data scarcity challenges in healthcare AI while preserving patient privacy. This paper presents a comprehensive study of text-to-image synthesis in the medical domain, comparing two distinct approaches: (1) fine-tuning large pre-trained latent diffusion models and (2) training small, domain-specific models. We introduce a novel model named MSDM, an optimized architecture based on Stable Diffusion that integrates a clinical text encoder, variational autoencoder, and cross-attention mechanisms to better align medical text prompts with generated images. Our study compares two approaches: fine-tuning large pre-trained models (FLUX, Kandinsky) versus training compact domain-specific models (MSDM). Evaluation across colonoscopy (MedVQA-GI) and radiology (ROCOv2) datasets reveals that while large models achieve higher fidelity, our optimized MSDM delivers comparable quality with lower computational costs. Quantitative metrics and qualitative evaluations by medical experts reveal strengths and limitations of each approach.
arxiv情報
著者 | Mikhail Chaichuk,Sushant Gautam,Steven Hicks,Elena Tutubalina |
発行日 | 2025-05-12 17:59:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google