要約
テキストから画像への生成のための拡散ベースのモデルは、効率、アクセシビリティ、および品質の最近の進歩により、絶大な人気を得ています。
コンシューマー グレードの GPU を使用してこれらのシステムで推論を実行することがますます実現可能になってきていますが、それらをゼロからトレーニングするには、依然として大規模なデータセットと大量の計算リソースへのアクセスが必要です。
医用画像生成の場合、法的および倫理的な懸念により、テキスト レポートを含む大規模で公開されているデータセットの利用は制限されています。
プライベート データセットで拡散モデルをトレーニングすることでこの問題に対処できる可能性がありますが、必要な計算リソースが不足している機関にとっては、必ずしも実行可能であるとは限りません。
この作業は、元々自然画像でトレーニングされた事前トレーニング済みの安定拡散モデルが、テキスト反転を使用してテキスト埋め込みをトレーニングすることにより、さまざまな医療画像モダリティに適応できることを示しています。
この研究では、3 つの医療モダリティから 100 のサンプルのみを含む医療データセットを使用して実験を行いました。
画像生成における診断関連性を維持しながら、埋め込みは数時間でトレーニングされました。
実験は、いくつかの目的を達成するために計画されました。
まず、テキスト反転のトレーニングと推論プロセスを微調整し、より大きな埋め込みとより多くの例が必要であることを明らかにしました。
次に、MRI で前立腺癌を検出するための診断精度 (AUC) が 0.78 から 0.80 に 2\% 増加したことを実証することで、アプローチを検証しました。
第三に、健康状態と病気の状態の間を補間し、複数の病状を組み合わせ、修復を行ってシミュレーションを実行し、組み込みの柔軟性と病気の外観の制御を示しました。
最後に、この研究でトレーニングされた埋め込みは小さい (1 MB 未満) ため、プライバシーの懸念を抑えながら医療データを簡単に共有できます。
要約(オリジナル)
Diffusion-based models for text-to-image generation have gained immense popularity due to recent advancements in efficiency, accessibility, and quality. Although it is becoming increasingly feasible to perform inference with these systems using consumer-grade GPUs, training them from scratch still requires access to large datasets and significant computational resources. In the case of medical image generation, the availability of large, publicly accessible datasets that include text reports is limited due to legal and ethical concerns. While training a diffusion model on a private dataset may address this issue, it is not always feasible for institutions lacking the necessary computational resources. This work demonstrates that pre-trained Stable Diffusion models, originally trained on natural images, can be adapted to various medical imaging modalities by training text embeddings with textual inversion. In this study, we conducted experiments using medical datasets comprising only 100 samples from three medical modalities. Embeddings were trained in a matter of hours, while still retaining diagnostic relevance in image generation. Experiments were designed to achieve several objectives. Firstly, we fine-tuned the training and inference processes of textual inversion, revealing that larger embeddings and more examples are required. Secondly, we validated our approach by demonstrating a 2\% increase in the diagnostic accuracy (AUC) for detecting prostate cancer on MRI, which is a challenging multi-modal imaging modality, from 0.78 to 0.80. Thirdly, we performed simulations by interpolating between healthy and diseased states, combining multiple pathologies, and inpainting to show embedding flexibility and control of disease appearance. Finally, the embeddings trained in this study are small (less than 1 MB), which facilitates easy sharing of medical data with reduced privacy concerns.
arxiv情報
著者 | Bram de Wilde,Anindo Saha,Richard P. G. ten Broek,Henkjan Huisman |
発行日 | 2023-03-23 16:50:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google