Medical Image Synthesis via Fine-Grained Image-Text Alignment and Anatomy-Pathology Prompting

要約

データ不足とプライバシーへの懸念により、高品質の医用画像の公共利用が制限されていますが、この問題は医用画像合成によって軽減できます。
しかし、現在の医用画像合成方法では、複雑な詳細な解剖学的構造や病理学的状態を正確に捉えることが困難なことがよくあります。
これらの課題に対処するために、私たちは、きめ細かい画像とテキストの位置合わせと解剖学と病理学のプロンプトを活用して、非常に詳細で正確な合成医用画像を生成する、新しい医用画像合成モデルを提案します。
私たちの手法は、高度な自然言語処理技術と画像生成モデリングを統合し、説明テキスト プロンプトと合成画像の解剖学的および病理学的詳細の間の正確な位置合わせを可能にします。
提案されたアプローチは、解剖学的病理学プロンプト モジュールと、きめの細かい位置合わせに基づく合成モジュールという 2 つの主要なコンポーネントで構成されます。
解剖病理学プロンプト モジュールは、高品質の医療画像に対する説明的なプロンプトを自動的に生成します。
生成されたプロンプトから高品質の医療画像をさらに合成するために、ファイングレイン アライメント ベースの合成モジュールは、放射線学データセットのビジュアル コードブックを事前定義し、コードブックと生成されたプロンプトの間でファイングレイン アライメントを実行して、キー パッチをビジュアルとして取得します。
手がかりを提供し、正確な画像合成を容易にします。
私たちは、公開胸部 X 線データセットでの実験を通じてこの方法の優位性を検証し、合成画像が正確な意味情報を保存し、さまざまな医療用途にとって価値のあるものになることを実証します。

要約(オリジナル)

Data scarcity and privacy concerns limit the availability of high-quality medical images for public use, which can be mitigated through medical image synthesis. However, current medical image synthesis methods often struggle to accurately capture the complexity of detailed anatomical structures and pathological conditions. To address these challenges, we propose a novel medical image synthesis model that leverages fine-grained image-text alignment and anatomy-pathology prompts to generate highly detailed and accurate synthetic medical images. Our method integrates advanced natural language processing techniques with image generative modeling, enabling precise alignment between descriptive text prompts and the synthesized images’ anatomical and pathological details. The proposed approach consists of two key components: an anatomy-pathology prompting module and a fine-grained alignment-based synthesis module. The anatomy-pathology prompting module automatically generates descriptive prompts for high-quality medical images. To further synthesize high-quality medical images from the generated prompts, the fine-grained alignment-based synthesis module pre-defines a visual codebook for the radiology dataset and performs fine-grained alignment between the codebook and generated prompts to obtain key patches as visual clues, facilitating accurate image synthesis. We validate the superiority of our method through experiments on public chest X-ray datasets and demonstrate that our synthetic images preserve accurate semantic information, making them valuable for various medical applications.

arxiv情報

著者 Wenting Chen,Pengyu Wang,Hui Ren,Lichao Sun,Quanzheng Li,Yixuan Yuan,Xiang Li
発行日 2024-03-11 15:56:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク