A Generalist Learner for Multifaceted Medical Image Interpretation

要約

現在の医療用人工知能システムは狭い用途に限定されていることが多く、臨床現場での広範な導入が妨げられています。
この制限に対処するために、医療画像読影の柔軟な学習とタスクを可能にするジェネラリスト学習器である MedVersa を提案します。
学習可能なオーケストレーターとして大規模な言語モデルを活用することで、MedVersa は視覚的および言語的監視の両方から学習し、マルチモーダル入力をサポートし、リアルタイムのタスク仕様を実行できます。
この多用途性により、MedVersa はさまざまな臨床シナリオに適応し、多面的な医療画像分析を実行できます。
MedVersa の開発をサポートするために、3 つのモダリティにわたる 11 のタスクにわたる 1,300 万を超える注釈付きインスタンスで構成される、医用画像読影用としてはこれまでで最大のマルチモーダル データセットである MedInterp を導入します。
私たちの実験では、MedVersa が 9 つのタスクで最先端のパフォーマンスを達成し、場合によっては専門家の同等のパフォーマンスを 10% 以上上回ることが実証されました。
MedVersa は、マルチモーダルな出力、入力、動的タスク仕様の実装におけるマルチモーダル生成医療 AI の実現可能性を初めて示し、包括的な医用画像分析のための多機能システムとしての可能性を強調しています。
医療画像読影に対するこのジェネラリスト的なアプローチは、より適応性が高く効率的な AI 支援による臨床意思決定への道を開きます。

要約(オリジナル)

Current medical artificial intelligence systems are often limited to narrow applications, hindering their widespread adoption in clinical practice. To address this limitation, we propose MedVersa, a generalist learner that enables flexible learning and tasking for medical image interpretation. By leveraging a large language model as a learnable orchestrator, MedVersa can learn from both visual and linguistic supervision, support multimodal inputs, and perform real-time task specification. This versatility allows MedVersa to adapt to various clinical scenarios and perform multifaceted medical image analysis. We introduce MedInterp, the largest multimodal dataset to date for medical image interpretation, consisting of over 13 million annotated instances spanning 11 tasks across 3 modalities, to support the development of MedVersa. Our experiments demonstrate that MedVersa achieves state-of-the-art performance in 9 tasks, sometimes outperforming specialist counterparts by over 10%. MedVersa is the first to showcase the viability of multimodal generative medical AI in implementing multimodal outputs, inputs, and dynamic task specification, highlighting its potential as a multifunctional system for comprehensive medical image analysis. This generalist approach to medical image interpretation paves the way for more adaptable and efficient AI-assisted clinical decision-making.

arxiv情報

著者 Hong-Yu Zhou,Subathra Adithan,Julián Nicolás Acosta,Eric J. Topol,Pranav Rajpurkar
発行日 2024-05-13 17:58:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク