Medical diffusion on a budget: Textual Inversion for medical image generation

要約

効率性、アクセシビリティ、品質で知られるテキストから画像への生成の普及モデルが人気を集めています。
コンシューマーグレードの GPU でこれらのシステムを使用した推論は実現可能性が高まっていますが、ゼロからトレーニングするには大規模なキャプション付きデータセットと大量の計算リソースが必要です。
医療画像の生成では、テキストレポートを含む大規模で公的にアクセス可能なデータセットの利用が限られているため、法的および倫理的な懸念により課題が生じています。
この研究は、テキスト反転を使用してテキスト埋め込みをトレーニングすることによって、事前トレーニングされた安定拡散モデルを医療画像モダリティに適応させることができることを示しています。
この研究では、小規模な医療データセット (3 つのモダリティからそれぞれ 100 サンプル) を使用して実験し、専門の放射線科医によって判断された診断上正確な画像を生成するために数時間以内にトレーニングしました。
Textual Inversion のトレーニングと推論パラメーターを使った実験により、医療分野ではより大きな埋め込みとより多くの例が必要であることが明らかになりました。
分類実験では、MRI で前立腺がんを検出する診断精度 (AUC) が 0.78 から 0.80 に増加することが示されています。
さらなる実験では、疾患の補間、病理の結合、および正確な疾患の出現制御のための修復による埋め込みの柔軟性を実証します。
トレーニングされた埋め込みはコンパクト (1 MB 未満) であるため、プライバシーの懸念を軽減しながら簡単にデータを共有できます。

要約(オリジナル)

Diffusion models for text-to-image generation, known for their efficiency, accessibility, and quality, have gained popularity. While inference with these systems on consumer-grade GPUs is increasingly feasible, training from scratch requires large captioned datasets and significant computational resources. In medical image generation, the limited availability of large, publicly accessible datasets with text reports poses challenges due to legal and ethical concerns. This work shows that adapting pre-trained Stable Diffusion models to medical imaging modalities is achievable by training text embeddings using Textual Inversion. In this study, we experimented with small medical datasets (100 samples each from three modalities) and trained within hours to generate diagnostically accurate images, as judged by an expert radiologist. Experiments with Textual Inversion training and inference parameters reveal the necessity of larger embeddings and more examples in the medical domain. Classification experiments show an increase in diagnostic accuracy (AUC) for detecting prostate cancer on MRI, from 0.78 to 0.80. Further experiments demonstrate embedding flexibility through disease interpolation, combining pathologies, and inpainting for precise disease appearance control. The trained embeddings are compact (less than 1 MB), enabling easy data sharing with reduced privacy concerns.

arxiv情報

著者 Bram de Wilde,Anindo Saha,Maarten de Rooij,Henkjan Huisman,Geert Litjens
発行日 2024-09-11 14:40:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク