要約
本研究では、Radiology Foundation Model(RadFM)の開発に着手することを目的とし、データ、モデル設計、評価の観点から基礎モデルの構築を徹底的に検討する。我々の貢献は以下のように結論づけられる:(i)、我々は1600万件の2次元および3次元医用画像からなる大規模な医用マルチモーダルデータセットMedMDを構築した。我々の知る限り、これは3D医療スキャンを含む最初のマルチモーダルデータセットである。(ii)、視覚条件付き生成的事前学習を可能にするアーキテクチャを提案し、多様な放射線学的タスクに対する応答を生成するために、2Dまたは3D医療スキャンとインターリーブされたテキスト入力を統合することを可能にする。このモデルは、最初にMedMD上で事前学習され、その後、3Mの放射線学的視覚言語ペアを含む、MedMDの放射線学的クリーン化バージョンであるRadMD上で領域特異的に微調整された。(iii)、実用的な臨床問題に対応する基礎モデルの能力を総合的に評価することを目的として、5つのタスクからなる新しい評価ベンチマークを提案する。我々の実験結果は、RadFMが既存のマルチモーダル基礎モデルを大幅に上回ることを確認した。コード、データ、およびモデルのチェックポイントはすべて、この分野のさらなる研究開発を促進するために公開される予定である。
要約(オリジナル)
In this study, we aim to initiate the development of Radiology Foundation Model, termed as RadFM.We consider the construction of foundational models from the perspectives of data, model design, and evaluation thoroughly. Our contribution can be concluded as follows: (i), we construct a large-scale Medical Multi-modal Dataset, MedMD, consisting of 16M 2D and 3D medical scans. To the best of our knowledge, this is the first multi-modal dataset containing 3D medical scans. (ii), We propose an architecture that enables visually conditioned generative pre-training, allowing for the integration of text input interleaved with 2D or 3D medical scans to generate response for diverse radiologic tasks. The model was initially pre-trained on MedMD and subsequently domain-specific fine-tuned on RadMD, a radiologic cleaned version of MedMD, containing 3M radiologic visual-language pairs. (iii), we propose a new evaluation benchmark that comprises five tasks, aiming to comprehensively assess the capability of foundation models in handling practical clinical problems. Our experimental results confirm that RadFM significantly outperforms existing multi-modal foundation models. The codes, data, and model checkpoint will all be made publicly available to promote further research and development in the field.
arxiv情報
著者 | Chaoyi Wu,Xiaoman Zhang,Ya Zhang,Yanfeng Wang,Weidi Xie |
発行日 | 2023-08-04 17:00:38+00:00 |
arxivサイト | arxiv_id(pdf) |