Medical Multimodal-Multitask Foundation Model for Superior Chest CT Performance

要約

患者管理には、マルチモーダル データとのマルチタスク対話が必要です。
今日の AI、特に大規模な基盤モデルには前例のない機会が約束されていますが、医療用マルチモーダル マルチタスク基盤モデルの開発の進歩は依然として比較的遅いです。
この方向性には主に 2 つの課題があります。1 つはデータの課題であり、他の臨床データセットと整合する 3D 医療断層撮影画像を含む医療のマルチモーダルでマルチタスクのデータセットを厳選するのは高いハードルです。もう 1 つはモデルの課題で、スケーラブルで適応可能な基盤モデルが利用できないことです。
多様な臨床タスクのためにマルチモーダル データセットを相乗させるアーキテクチャ。
ここでは、肺がんスクリーニングに重点を置いた、この種では初めての医療マルチモーダル・マルチタスク基盤モデル (M3FM) を提案します。
M3FM をトレーニングするために、まず、163,725 件の 3D 胸部 CT 検査、48 種類の臨床データ、肺、心臓、およびその他の胸部疾患に関する 17 の医療タスクから構成される、包括的なマルチモーダル マルチタスク データセットを厳選しました。
次に、マルチモーダルな情報を効果的に統合し、フリーテキストのプロンプトで複数のタスクを自然に実行するための統合トレーニング戦略として、マルチモーダルな質問応答フレームワークを作成および適用しました。
広範な実験結果により、M3FM が以前の最先端モデルよりも一貫して優れていることが実証されています。
M3FM は、特定の臨床タスクに関連する有益なマルチモーダル データ要素を特定し、AI モデルの構築やマルチモーダル データと疾患間の相関関係に関する洞察の獲得に役立ちます。
M3FM を適応させて、小規模な配布外データセットを使用して新しいタスクのパフォーマンスを向上させることができます。
M3FM は、肺がんのスクリーニング、心疾患の予測、およびその他の CT 関連のタスクにおいて、優れた体積 CT イメージング パフォーマンスを可能にしました。
M3FM は、AI を活用した正確で効率的な医療に向けて、より多くのデータ タイプを組み込み、他の医療タスクを改善するように拡張できます。

要約(オリジナル)

Patient management requires multitasking interaction with multimodal data. While today’s AI, particularly large foundation models, promises unprecedented opportunities, progress remains relatively slow in developing medical multimodal multitask foundation models. There are two main challenges along this direction: the data challenge — the high bar to curate medical multimodal multitask datasets including 3D medical tomographic images in alignment with other clinical datasets, and the model challenge — the unavailability of a scalable and adaptable foundation model architecture to synergize multimodal datasets for diverse clinical tasks. Here we propose the first-of-its-kind medical multimodal-multitask foundation model (M3FM) with an emphasis on lung cancer screening. To train our M3FM, we first curated a comprehensive multimodal multitask dataset consisting of 163,725 3D chest CT exams, 48 clinical data types, and 17 medical tasks on lung, heart, and other chest diseases. Then, we created and applied a multimodal question-answering framework as a unified training strategy to effectively integrate multimodal information and naturally perform multiple tasks with free-text prompting. Extensive experimental results demonstrate that M3FM consistently outperforms the previous state-of-the-art models. M3FM can identify informative multimodal data elements that are relevant to specific clinical tasks, being instrumental in building AI models and gaining insights into correlations among multimodal data and diseases. M3FM can be adapted to boost the performance of new tasks with a small out-of-distribution dataset. M3FM has enabled superior volumetric CT imaging performance for lung cancer screening, cardiac disease prediction, and other CT-related tasks. M3FM can be extended to incorporate more data types and improve other medical tasks, towards AI-empowered precise and efficient medicine.

arxiv情報

著者 Chuang Niu,Qing Lyu,Christopher D. Carothers,Parisa Kaviani,Josh Tan,Pingkun Yan,Mannudeep K. Kalra,Christopher T. Whitlow,Ge Wang
発行日 2024-03-13 14:20:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, eess.IV パーマリンク