Expert-level vision-language foundation model for real-world radiology and comprehensive evaluation

要約

放射線学は現代の臨床ワークフローの重要かつ複雑な要素であり、多くのタスクをカバーします。
最近、医学におけるビジョン言語 (VL) 基盤モデルは、マルチモーダルな情報を処理する可能性を示し、さまざまな放射線医学タスクに統合されたソリューションを提供します。
しかし、既存の研究は、自然データに基づいて VL モデルを事前トレーニングしたか、視覚言語アーキテクチャと事前トレーニングを完全には統合しておらず、放射線画像とそのテキストコンテキストにおける独特のマルチモーダルな複雑さを無視することがよくありました。
さらに、現実世界のシナリオにおける実際の適用可能性はまだ研究されていません。
ここでは、放射線医学向けに調整された大規模なオープンソースの視覚言語基盤モデルである RadFound を紹介します。これは、19 の主要な臓器系と 10 の画像モダリティをカバーする、810 万枚を超える画像と 250,000 の画像とテキストのペアからなる最も広範なデータセットでトレーニングされています。

専門家レベルのマルチモーダル認識および生成機能を確立するために、RadFound は、画像内の局所特徴と画像間のコンテキスト情報をキャプチャする強化されたビジョン エンコーダーと、放射線医学に合わせた統合クロスモーダル学習設計を導入しています。
モデルの機能を完全に評価するために、医療視覚言語の質問応答などの放射線読影タスクや、キャプションからレポート生成までのテキスト生成タスクを含むベンチマーク RadVLBench を構築します。
人的評価の枠組みも提案します。
2D 画像 (胸部 X 線)、多視点画像 (マンモグラム)、および 3D 画像 (甲状腺 CT スキャン) という 3 つの代表的なモダリティを含む現実世界のベンチマークで評価すると、RadFound は両方の定量的指標において他の VL 基盤モデルを大幅に上回っています。
そして人間の評価。
要約すると、RadFound の開発は放射線科ジェネラリストの進歩を表し、臨床ワークフローへの統合に幅広い適用可能性を示しています。

要約(オリジナル)

Radiology is a vital and complex component of modern clinical workflow and covers many tasks. Recently, vision-language (VL) foundation models in medicine have shown potential in processing multimodal information, offering a unified solution for various radiology tasks. However, existing studies either pre-trained VL models on natural data or did not fully integrate vision-language architecture and pretraining, often neglecting the unique multimodal complexity in radiology images and their textual contexts. Additionally, their practical applicability in real-world scenarios remains underexplored. Here, we present RadFound, a large and open-source vision-language foundation model tailored for radiology, that is trained on the most extensive dataset of over 8.1 million images and 250,000 image-text pairs, covering 19 major organ systems and 10 imaging modalities. To establish expert-level multimodal perception and generation capabilities, RadFound introduces an enhanced vision encoder to capture intra-image local features and inter-image contextual information, and a unified cross-modal learning design tailored to radiology. To fully assess the models’ capability, we construct a benchmark, RadVLBench, including radiology interpretation tasks like medical vision-language question-answering, as well as text generation tasks ranging from captioning to report generation. We also propose a human evaluation framework. When evaluated on the real-world benchmark involving three representative modalities, 2D images (chest X-rays), multi-view images (mammograms), and 3D images (thyroid CT scans), RadFound significantly outperforms other VL foundation models on both quantitative metrics and human evaluation. In summary, the development of RadFound represents an advancement in radiology generalists, demonstrating broad applicability potential for integration into clinical workflows.

arxiv情報

著者 Xiaohong Liu,Guoxing Yang,Yulin Luo,Jiaji Mao,Xiang Zhang,Ming Gao,Shanghang Zhang,Jun Shen,Guangyu Wang
発行日 2024-09-24 15:31:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク