要約
大規模な視覚言語モデル(LVLMS)は、特に視覚的な質問応答(MEDVQA)と医療画像からの診断において、医療用途に大きな期待を示しています。
ただし、既存のデータセットとモデルは、歴史的記録の統合や時間の経過に伴う疾患の進行の分析など、医療診断の重要な側面を考慮していないことがよくあります。
このホワイトペーパーでは、MMXU(マルチモーダルおよびマルチレイ理解)を紹介します。これは、2つの患者訪問の間の特定の領域の変化の特定に焦点を当てたMEDVQAの新しいデータセットです。
主に単一イメージの質問に対処する以前のデータセットとは異なり、MMXUは、現在および履歴の患者データの両方を組み込んだマルチイメージの質問を有効にします。
MMXU- \ textIT {test}の疾患の進行を特定する際の現在のLVLMの制限を示します。
これに対処するために、グローバルおよび地域の歴史的記録の両方を組み込んだMedRecord-Augmented Generation(MAG)アプローチを提案します。
私たちの実験は、履歴記録を統合することで診断の精度が少なくとも20 \%増加することを示しており、現在のLVLMSと人間の専門家のパフォーマンスのギャップを埋めることを示しています。
さらに、MMXU- \ TextIT {dev}でMAGでモデルを微調整します。これは、顕著な改善を示しています。
この作業が、医療画像を解釈する際の歴史的背景の重要性を強調することにより、医療診断におけるLVLMSの使用を進める道を照らすことができることを願っています。
データセットはgithubでリリースされています:https://github.com/linjiemu/mmxu。
要約(オリジナル)
Large vision-language models (LVLMs) have shown great promise in medical applications, particularly in visual question answering (MedVQA) and diagnosis from medical images. However, existing datasets and models often fail to consider critical aspects of medical diagnostics, such as the integration of historical records and the analysis of disease progression over time. In this paper, we introduce MMXU (Multimodal and MultiX-ray Understanding), a novel dataset for MedVQA that focuses on identifying changes in specific regions between two patient visits. Unlike previous datasets that primarily address single-image questions, MMXU enables multi-image questions, incorporating both current and historical patient data. We demonstrate the limitations of current LVLMs in identifying disease progression on MMXU-\textit{test}, even those that perform well on traditional benchmarks. To address this, we propose a MedRecord-Augmented Generation (MAG) approach, incorporating both global and regional historical records. Our experiments show that integrating historical records significantly enhances diagnostic accuracy by at least 20\%, bridging the gap between current LVLMs and human expert performance. Additionally, we fine-tune models with MAG on MMXU-\textit{dev}, which demonstrates notable improvements. We hope this work could illuminate the avenue of advancing the use of LVLMs in medical diagnostics by emphasizing the importance of historical context in interpreting medical images. Our dataset is released at github: https://github.com/linjiemu/MMXU.
arxiv情報
著者 | Linjie Mu,Zhongzhen Huang,Shengqian Qin,Yakun Zhu,Shaoting Zhang,Xiaofan Zhang |
発行日 | 2025-05-23 17:05:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google