MedPromptX: Grounded Multimodal Prompting for Chest X-ray Diagnosis

要約

胸部 X 線画像は、急性および慢性の心肺疾患の予測によく使用されますが、胸部 X 線画像を構造化された臨床データと統合する取り組みは、不完全な電子医療記録 (EHR) による課題に直面しています。
この論文では、胸部 X 線診断のために画像と EHR データを組み合わせるために、マルチモーダル大規模言語モデル (MLLM)、少数ショット プロンプト (FP)、およびビジュアル グラウンディング (VG) を統合する最初のモデルである \textbf{MedPromptX} を紹介します。
事前トレーニングされた MLLM を利用して欠落している EHR 情報を補完し、患者の病歴を包括的に理解することができます。
さらに、FP は、幻覚の問題に効果的に取り組みながら、MLLM の広範なトレーニングの必要性を軽減します。
それにもかかわらず、少数ショットのサンプルの最適な数を決定し、高品質の候補を選択するプロセスは負担がかかる可能性があり、さらにモデルのパフォーマンスに大きな影響を与えます。
そこで、新しい患者のシナリオにリアルタイムで調整するために、数ショットのデータを動的に調整する新しい技術を提案します。
さらに、VG は、モデルの注意を X 線画像内の関連する関心領域に集中させるのに役立ち、異常の特定を強化します。
MedPromptX-VQA は、MIMIC-IV および MIMIC-CXR データベースから派生したインターリーブ画像と EHR データを含む、コンテキストに沿った新しい視覚的な質問応答データセットです。
結果は、MedPromptX の SOTA パフォーマンスを実証し、ベースラインと比較して F1 スコアで 11% の改善を達成しました。
コードとデータは https://github.com/BioMedIA-MBZUAI/MedPromptX で入手できます。

要約(オリジナル)

Chest X-ray images are commonly used for predicting acute and chronic cardiopulmonary conditions, but efforts to integrate them with structured clinical data face challenges due to incomplete electronic health records (EHR). This paper introduces \textbf{MedPromptX}, the first model to integrate multimodal large language models (MLLMs), few-shot prompting (FP) and visual grounding (VG) to combine imagery with EHR data for chest X-ray diagnosis. A pre-trained MLLM is utilized to complement the missing EHR information, providing a comprehensive understanding of patients’ medical history. Additionally, FP reduces the necessity for extensive training of MLLMs while effectively tackling the issue of hallucination. Nevertheless, the process of determining the optimal number of few-shot examples and selecting high-quality candidates can be burdensome, yet it profoundly influences model performance. Hence, we propose a new technique that dynamically refines few-shot data for real-time adjustment to new patient scenarios. Moreover, VG aids in focusing the model’s attention on relevant regions of interest in X-ray images, enhancing the identification of abnormalities. We release MedPromptX-VQA, a new in-context visual question answering dataset encompassing interleaved image and EHR data derived from MIMIC-IV and MIMIC-CXR databases. Results demonstrate the SOTA performance of MedPromptX, achieving an 11% improvement in F1-score compared to the baselines. Code and data are available at https://github.com/BioMedIA-MBZUAI/MedPromptX

arxiv情報

著者 Mai A. Shaaban,Adnan Khan,Mohammad Yaqub
発行日 2024-03-26 14:51:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク