MedFrameQA: A Multi-Image Medical VQA Benchmark for Clinical Reasoning

要約

既存の医療用VQAベンチマークは、主に単一イメージ分析に焦点を当てていますが、臨床医はほとんどの場合、診断に到達する前に一連の画像を比較します。
このワークフローをよりよく近似するために、MedFrameQAを紹介します。これは、医療VQAのマルチイメージの推論を明示的に評価する最初のベンチマークです。
大規模および高品質の両方でMedframeQAを構築するために、1)医療ビデオから一時的にコヒーレントなフレームを抽出し、コンテンツが画像間で論理的に進化するVQAアイテムを構築する自動化されたパイプラインを開発し、2)モデルベースおよびマニュアルレビューを含む複数のステージフィルタリング戦略を、データの明確さ、困難、および医療の関連性を維持します。
結果のデータセットは、2,851個のVQAペア(3,420ビデオで9,237個の高品質フレームから収集された)で構成され、9人の人体システムと43個の臓器をカバーしています。
すべての質問には、2〜5枚の画像が伴います。
MedFrameQAで、明示的な推論モジュールの有無にかかわらず、10の高度なマルチモーダルLLM(独自およびオープンソースの両方)を包括的にベンチマークします。
この評価は、すべてのモデルのパフォーマンスが不十分であり、ほとんどの精度が50%未満であり、質問ごとの画像の数が増加するにつれて精度が変動することを明らかにしています。
エラー分析により、モデルは顕著な調査結果を頻繁に無視し、画像間の証拠を誤って凝集させ、推論チェーンを通して初期の間違いを伝播することを示しています。
結果は、身体システム、臓器、およびモダリティによっても大きく異なります。
この作業が、臨床的に根拠のあるマルチイメージの推論に関する研究を触媒し、より有能な診断AIシステムへの進歩を加速できることを願っています。

要約(オリジナル)

Existing medical VQA benchmarks mostly focus on single-image analysis, yet clinicians almost always compare a series of images before reaching a diagnosis. To better approximate this workflow, we introduce MedFrameQA — the first benchmark that explicitly evaluates multi-image reasoning in medical VQA. To build MedFrameQA both at scale and in high-quality, we develop 1) an automated pipeline that extracts temporally coherent frames from medical videos and constructs VQA items whose content evolves logically across images, and 2) a multiple-stage filtering strategy, including model-based and manual review, to preserve data clarity, difficulty, and medical relevance. The resulting dataset comprises 2,851 VQA pairs (gathered from 9,237 high-quality frames in 3,420 videos), covering nine human body systems and 43 organs; every question is accompanied by two to five images. We comprehensively benchmark ten advanced Multimodal LLMs — both proprietary and open source, with and without explicit reasoning modules — on MedFrameQA. The evaluation challengingly reveals that all models perform poorly, with most accuracies below 50%, and accuracy fluctuates as the number of images per question increases. Error analysis further shows that models frequently ignore salient findings, mis-aggregate evidence across images, and propagate early mistakes through their reasoning chains; results also vary substantially across body systems, organs, and modalities. We hope this work can catalyze research on clinically grounded, multi-image reasoning and accelerate progress toward more capable diagnostic AI systems.

arxiv情報

著者 Suhao Yu,Haojin Wang,Juncheng Wu,Cihang Xie,Yuyin Zhou
発行日 2025-05-22 17:46:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク