CXReasonBench: A Benchmark for Evaluating Structured Diagnostic Reasoning in Chest X-rays

要約

大規模な視覚言語モデル(LVLMS)の最近の進捗により、レポート生成や視覚的な質問応答などの医療タスクで有望なアプリケーションが可能になりました。
ただし、既存のベンチマークは主に最終的な診断回答に焦点を当てており、モデルが臨床的に意味のある推論に従事するかどうかについての限られた洞察を提供します。
これに対処するために、ChexStructとCXReasonbenchを提示します。これは、公開されているMimic-CXR-JPGデータセットに基づいて構築された構造化されたパイプラインとベンチマークです。
ChexStructは、解剖学的領域のセグメント化、解剖学的ランドマークと診断測定の導出、診断指標の計算、臨床的閾値の適用など、胸部X線から直接一連の中間推論ステップを自動的に導き出します。
CXReasonBenchはこのパイプラインを活用して、モデルが臨床的に正当な推論ステップを実行できるかどうか、および構造化されたガイダンスからどの程度学習できるかを評価し、診断推論の微細な透明な評価を可能にします。
ベンチマークは、12の診断タスクと1,200件のケースにわたる18,988のQAペアで構成され、それぞれが最大4つの視覚入力とペアになり、解剖学的領域の選択と診断測定による視覚的接地を含むマルチパス、マルチステージ評価をサポートします。
最も強い評価されたLVLMSでさえ、構造化された推論と一般化と格闘しており、抽象的な知識を解剖学的に根拠のある視覚解釈とリンクすることに失敗することがよくあります。
このコードは、https://github.com/ttumyche/cxreasonbenchで入手できます

要約(オリジナル)

Recent progress in Large Vision-Language Models (LVLMs) has enabled promising applications in medical tasks, such as report generation and visual question answering. However, existing benchmarks focus mainly on the final diagnostic answer, offering limited insight into whether models engage in clinically meaningful reasoning. To address this, we present CheXStruct and CXReasonBench, a structured pipeline and benchmark built on the publicly available MIMIC-CXR-JPG dataset. CheXStruct automatically derives a sequence of intermediate reasoning steps directly from chest X-rays, such as segmenting anatomical regions, deriving anatomical landmarks and diagnostic measurements, computing diagnostic indices, and applying clinical thresholds. CXReasonBench leverages this pipeline to evaluate whether models can perform clinically valid reasoning steps and to what extent they can learn from structured guidance, enabling fine-grained and transparent assessment of diagnostic reasoning. The benchmark comprises 18,988 QA pairs across 12 diagnostic tasks and 1,200 cases, each paired with up to 4 visual inputs, and supports multi-path, multi-stage evaluation including visual grounding via anatomical region selection and diagnostic measurements. Even the strongest of 10 evaluated LVLMs struggle with structured reasoning and generalization, often failing to link abstract knowledge with anatomically grounded visual interpretation. The code is available at https://github.com/ttumyche/CXReasonBench

arxiv情報

著者 Hyungyung Lee,Geon Choi,Jung-Oh Lee,Hangyul Yoon,Hyuk Gi Hong,Edward Choi
発行日 2025-05-23 16:44:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク