要約
胸部 X 線(CXR)は臨床現場で最も頻繁に行われる画像検査である。最近の大型マルチモーダルモデル(LMM)の進歩により、CXRの自動判読が可能になり、診断精度と効率が向上した。(1)領域レベルの理解と相互作用が不十分であること、(2)推論がシングルステップであるため、精度と解釈可能性が限定的であること。本論文では、MLMMの対話性と説明可能性を高めるために、解剖学中心の推論機能を強化する。具体的には、まず解剖学的オントロジーに基づいた推論(AOR)フレームワークを提案する。次に、専門医の指導の下、MLMMsトレーニング用の大規模なインストラクションデータセットであるAOR-Instructionを開発する。我々の実験は、VQAとレポート生成タスクの両方においてAORの優れた性能を実証している。
要約(オリジナル)
Chest X-rays (CXRs) are the most frequently performed imaging examinations in clinical settings. Recent advancements in Large Multimodal Models (LMMs) have enabled automated CXR interpretation, enhancing diagnostic accuracy and efficiency. However, despite their strong visual understanding, current Medical LMMs (MLMMs) still face two major challenges: (1) Insufficient region-level understanding and interaction, and (2) Limited accuracy and interpretability due to single-step reasoning. In this paper, we empower MLMMs with anatomy-centric reasoning capabilities to enhance their interactivity and explainability. Specifically, we first propose an Anatomical Ontology-Guided Reasoning (AOR) framework, which centers on cross-modal region-level information to facilitate multi-step reasoning. Next, under the guidance of expert physicians, we develop AOR-Instruction, a large instruction dataset for MLMMs training. Our experiments demonstrate AOR’s superior performance in both VQA and report generation tasks.
arxiv情報
著者 | Qingqiu Li,Zihang Cui,Seongsu Bae,Jilan Xu,Runtian Yuan,Yuejie Zhang,Rui Feng,Quanli Shen,Xiaobo Zhang,Junjun He,Shujun Wang |
発行日 | 2025-05-05 17:57:07+00:00 |
arxivサイト | arxiv_id(pdf) |