要約
胸部 X 線 (CXR) は、臨床現場で最も頻繁に行われる画像検査です。
視覚言語基礎モデル (FM) の開発における最近の進歩により、自動 CXR 解釈を実行できる可能性が生まれ、医師の臨床意思決定を支援し、患者の転帰を改善することができます。
しかし、CXR を正確に解釈できる FM の開発は、(1) 医療画像ドメインにおける大規模な視覚言語データセットの利用可能性が限られている、(2) 医療データの複雑さを捕捉できる視覚および言語エンコーダが不足しているため、困難です。
(3) CXR 解釈に関する FM の能力をベンチマークするための評価フレームワークの欠如。
この研究では、最初に \emph{CheXinstruct} を導入することでこれらの課題に対処します。これは、28 の公的に利用可能なデータセットから厳選された大規模な命令チューニング データセットです。
次に、CXR を分析および要約できる命令調整された FM である \emph{CheXagent} を紹介します。
CheXagent を構築するために、放射線医学レポートを解析するための臨床大規模言語モデル (LLM)、CXR 画像を表現するためのビジョン エンコーダー、および視覚と言語モダリティの橋渡しをするネットワークを設計します。
最後に、\emph{CheXbench} を紹介します。これは、臨床的に関連する 8 つの CXR 解釈タスクにわたって FM を系統的に評価するように設計された新しいベンチマークです。
5 人の専門放射線科医による広範な定量的評価と定性的レビューにより、CheXagent が CheXbench タスクに関して以前に開発された一般および医療分野の FM よりも優れたパフォーマンスを発揮することが実証されました。
さらに、モデルの透明性を向上させる取り組みとして、性別、人種、年齢の要素全体にわたる公平性評価を実行し、潜在的なパフォーマンスの差異を浮き彫りにします。
私たちのプロジェクトは \url{https://stanford-aimi.github.io/chexagent.html} にあります。
要約(オリジナル)
Chest X-rays (CXRs) are the most frequently performed imaging test in clinical practice. Recent advances in the development of vision-language foundation models (FMs) give rise to the possibility of performing automated CXR interpretation, which can assist physicians with clinical decision-making and improve patient outcomes. However, developing FMs that can accurately interpret CXRs is challenging due to the (1) limited availability of large-scale vision-language datasets in the medical image domain, (2) lack of vision and language encoders that can capture the complexities of medical data, and (3) absence of evaluation frameworks for benchmarking the abilities of FMs on CXR interpretation. In this work, we address these challenges by first introducing \emph{CheXinstruct} – a large-scale instruction-tuning dataset curated from 28 publicly-available datasets. We then present \emph{CheXagent} – an instruction-tuned FM capable of analyzing and summarizing CXRs. To build CheXagent, we design a clinical large language model (LLM) for parsing radiology reports, a vision encoder for representing CXR images, and a network to bridge the vision and language modalities. Finally, we introduce \emph{CheXbench} – a novel benchmark designed to systematically evaluate FMs across 8 clinically-relevant CXR interpretation tasks. Extensive quantitative evaluations and qualitative reviews with five expert radiologists demonstrate that CheXagent outperforms previously-developed general- and medical-domain FMs on CheXbench tasks. Furthermore, in an effort to improve model transparency, we perform a fairness evaluation across factors of sex, race and age to highlight potential performance disparities. Our project is at \url{https://stanford-aimi.github.io/chexagent.html}.
arxiv情報
著者 | Zhihong Chen,Maya Varma,Jean-Benoit Delbrouck,Magdalini Paschali,Louis Blankemeier,Dave Van Veen,Jeya Maria Jose Valanarasu,Alaa Youssef,Joseph Paul Cohen,Eduardo Pontes Reis,Emily B. Tsai,Andrew Johnston,Cameron Olsen,Tanishq Mathew Abraham,Sergios Gatidis,Akshay S. Chaudhari,Curtis Langlotz |
発行日 | 2024-01-22 18:51:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google