Towards Generalist Foundation Model for Radiology

要約

本研究では、放射線医学基礎モデル(RadFM)の開発に着手することを目指します。基礎モデルの構築をデータ、モデル設計、評価の観点から徹底的に検討します。
私たちの貢献は次のように結論付けることができます: (i) 1,600 万の 2D および 3D 医療スキャンから構成される大規模な医療マルチモーダル データセット、MedMD を構築します。
私たちの知る限り、これは 3D 医療スキャンを含む最初のマルチモーダル データセットです。
(ii)、我々は、視覚的に条件付けされた生成事前トレーニングを可能にし、2D または 3D 医療スキャンとインターリーブされたテキスト入力の統合を可能にして、さまざまな放射線タスクに対する応答を生成できるアーキテクチャを提案します。
このモデルは最初に MedMD で事前トレーニングされ、その後、3M の放射線学的視覚言語ペアを含む MedMD の放射線学的クリーン バージョンである RadMD 上でドメイン固有の微調整が行われました。
(iii) では、実際の臨床問題を処理する際の基礎モデルの能力を包括的に評価することを目的として、5 つのタスクで構成される新しい評価ベンチマークを提案します。
私たちの実験結果では、RadFM が既存のマルチモーダル基礎モデルよりも大幅に優れていることが確認されました。
コード、データ、モデルのチェックポイントはすべて、この分野でのさらなる研究開発を促進するために公開されます。

要約(オリジナル)

In this study, we aim to initiate the development of Radiology Foundation Model, termed as RadFM.We consider the construction of foundational models from the perspectives of data, model design, and evaluation thoroughly. Our contribution can be concluded as follows: (i), we construct a large-scale Medical Multi-modal Dataset, MedMD, consisting of 16M 2D and 3D medical scans. To the best of our knowledge, this is the first multi-modal dataset containing 3D medical scans. (ii), We propose an architecture that enables visually conditioned generative pre-training, allowing for the integration of text input interleaved with 2D or 3D medical scans to generate response for diverse radiologic tasks. The model was initially pre-trained on MedMD and subsequently domain-specific fine-tuned on RadMD, a radiologic cleaned version of MedMD, containing 3M radiologic visual-language pairs. (iii), we propose a new evaluation benchmark that comprises five tasks, aiming to comprehensively assess the capability of foundation models in handling practical clinical problems. Our experimental results confirm that RadFM significantly outperforms existing multi-modal foundation models. The codes, data, and model checkpoint will all be made publicly available to promote further research and development in the field.

arxiv情報

著者 Chaoyi Wu,Xiaoman Zhang,Ya Zhang,Yanfeng Wang,Weidi Xie
発行日 2023-08-11 02:19:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク