Deep Generative Models Unveil Patterns in Medical Images Through Vision-Language Conditioning

要約

深層生成モデルは、データセットのサイズと品質を強化することにより、医療画像解析を大幅に進歩させました。
この論文での私たちの研究は、単なるデータ拡張を超えて、深層生成モデルの追加の重要な能力、つまり医療画像のパターンを明らかにし実証する能力に焦点を当てています。
私たちはハイブリッド条件の生成構造を採用し、臨床データとセグメンテーション マスクを組み合わせて画像合成プロセスをガイドします。
さらに、表形式の臨床データをテキストによる説明に革新的に変換しました。
このアプローチにより、欠損値の処理が簡素化され、独立した臨床項目間の関係を調査し、性別や喫煙状況などの一般的な用語を理解する、事前にトレーニングされた大規模な視覚言語モデルを活用することもできます。
私たちのアプローチは、臨床情報と画像の視覚的な相関性が低いため、従来の医療レポートに基づく合成とは異なり、より困難なタスクとなります。
これを克服するために、条件を強化するテキストビジュアル埋め込みメカニズムを導入し、ネットワークが提供された情報を効果的に利用できるようにします。
私たちのパイプラインは、GAN ベースと拡散モデルの両方に一般化できます。
特に喫煙状況に焦点を当てた胸部 CT の実験では、臨床観察と一致する肺の一貫した強度変化が実証され、医療画像パターンに対する特定の属性の影響を捕捉および視覚化する際の本手法の有効性が示されました。
私たちの方法は、深い生成モデルを使用して複雑な臨床状態を早期発見し、正確に視覚化するための新しい手段を提供します。
すべてのコードは https://github.com/junzhin/DGM-VLC です。

要約(オリジナル)

Deep generative models have significantly advanced medical imaging analysis by enhancing dataset size and quality. Beyond mere data augmentation, our research in this paper highlights an additional, significant capacity of deep generative models: their ability to reveal and demonstrate patterns in medical images. We employ a generative structure with hybrid conditions, combining clinical data and segmentation masks to guide the image synthesis process. Furthermore, we innovatively transformed the tabular clinical data into textual descriptions. This approach simplifies the handling of missing values and also enables us to leverage large pre-trained vision-language models that investigate the relations between independent clinical entries and comprehend general terms, such as gender and smoking status. Our approach differs from and presents a more challenging task than traditional medical report-guided synthesis due to the less visual correlation of our clinical information with the images. To overcome this, we introduce a text-visual embedding mechanism that strengthens the conditions, ensuring the network effectively utilizes the provided information. Our pipeline is generalizable to both GAN-based and diffusion models. Experiments on chest CT, particularly focusing on the smoking status, demonstrated a consistent intensity shift in the lungs which is in agreement with clinical observations, indicating the effectiveness of our method in capturing and visualizing the impact of specific attributes on medical image patterns. Our methods offer a new avenue for the early detection and precise visualization of complex clinical conditions with deep generative models. All codes are https://github.com/junzhin/DGM-VLC.

arxiv情報

著者 Xiaodan Xing,Junzhi Ning,Yang Nan,Guang Yang
発行日 2024-10-17 17:48:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク