Medical diffusion on a budget: Textual Inversion for medical image generation


コンシューマーグレードの GPU でこれらのシステムを使用した推論は実現可能性が高まっていますが、ゼロからトレーニングするには大規模なキャプション付きデータセットと大量の計算リソースが必要です。
この研究では、小規模な医療データセット (3 つのモダリティからそれぞれ 100 サンプル) を使用して実験し、専門の放射線科医によって判断された診断上正確な画像を生成するために数時間以内にトレーニングしました。
Textual Inversion のトレーニングと推論パラメーターを使った実験により、医療分野ではより大きな埋め込みとより多くの例が必要であることが明らかになりました。
分類実験では、MRI で前立腺がんを検出する診断精度 (AUC) が 0.78 から 0.80 に増加することが示されています。
トレーニングされた埋め込みはコンパクト (1 MB 未満) であるため、プライバシーの懸念を軽減しながら簡単にデータを共有できます。


Diffusion models for text-to-image generation, known for their efficiency, accessibility, and quality, have gained popularity. While inference with these systems on consumer-grade GPUs is increasingly feasible, training from scratch requires large captioned datasets and significant computational resources. In medical image generation, the limited availability of large, publicly accessible datasets with text reports poses challenges due to legal and ethical concerns. This work shows that adapting pre-trained Stable Diffusion models to medical imaging modalities is achievable by training text embeddings using Textual Inversion. In this study, we experimented with small medical datasets (100 samples each from three modalities) and trained within hours to generate diagnostically accurate images, as judged by an expert radiologist. Experiments with Textual Inversion training and inference parameters reveal the necessity of larger embeddings and more examples in the medical domain. Classification experiments show an increase in diagnostic accuracy (AUC) for detecting prostate cancer on MRI, from 0.78 to 0.80. Further experiments demonstrate embedding flexibility through disease interpolation, combining pathologies, and inpainting for precise disease appearance control. The trained embeddings are compact (less than 1 MB), enabling easy data sharing with reduced privacy concerns.


著者 Bram de Wilde,Anindo Saha,Maarten de Rooij,Henkjan Huisman,Geert Litjens
発行日 2024-09-11 14:40:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV, eess.IV パーマリンク