要約
人工知能(AI)と放射線学の統合は、医学の変革的時代を示しています。
Vision Foundationモデルが採用され、放射線学的イメージング分析が強化されています。
ただし、放射線2Dおよび3D放射線データの明確な複雑さは、一般的な非医療画像で事前に訓練された既存のモデルが適切に対処できないという独自の課題をもたらします。
このギャップを橋渡しし、放射線科学イメージングに必要な診断精度を活用するために、放射線学的な対照的な言語イメージ(RADCLIP)を紹介します。
RadClipは、対照的な言語イメージのプリトレーニング(クリップ)に基づいて、体積画像解析に合わせたスライスプーリングメカニズムを組み込んでおり、放射線学的画像テキストペアの大規模で多様なデータセットを使用して事前に訓練されています。
RadClipは、放射線画像を対応するテキスト注釈と効果的に整列させるために事前に訓練されており、放射線画像の堅牢なビジョンバックボーンを作成しました。
広範な実験は、大学モーダルの放射線画像分類とクロスモーダル画像テキストマッチングの両方でRadClipの優れた性能を示し、臨床環境の診断精度と効率を改善するための重要な約束を強調しています。
私たちの重要な貢献には、多様な放射線2D/3D放射線画像テキストペアを使用した大規模なデータセットのキュレーション、2D画像を統合するための注意メカニズムを使用したスライスプーリングアダプター、さまざまな放射線学的下流タスクでのRadClipの包括的な評価が含まれます。
要約(オリジナル)
The integration of artificial intelligence (AI) with radiology marks a transformative era in medicine. Vision foundation models have been adopted to enhance radiologic imaging analysis. However, the distinct complexities of radiologic 2D and 3D radiologic data pose unique challenges that existing models, pre-trained on general non-medical images, fail to address adequately. To bridge this gap and capitalize on the diagnostic precision required in radiologic imaging, we introduce Radiologic Contrastive Language-Image Pre-training (RadCLIP): a cross-modal vision-language foundational model that harnesses Vision Language Pre-training (VLP) framework to improve radiologic image analysis. Building upon Contrastive Language-Image Pre-training (CLIP), RadCLIP incorporates a slice pooling mechanism tailored for volumetric image analysis and is pre-trained using a large and diverse dataset of radiologic image-text pairs. The RadCLIP was pre-trained to effectively align radiologic images with their corresponding text annotations, creating a robust vision backbone for radiologic images. Extensive experiments demonstrate RadCLIP’s superior performance in both uni-modal radiologic image classification and cross-modal image-text matching, highlighting its significant promise for improving diagnostic accuracy and efficiency in clinical settings. Our Key contributions include curating a large dataset with diverse radiologic 2D/3D radiologic image-text pairs, a slice pooling adapter using an attention mechanism for integrating 2D images, and comprehensive evaluations of RadCLIP on various radiologic downstream tasks.
arxiv情報
著者 | Zhixiu Lu,Hailong Li,Nehal A. Parikh,Jonathan R. Dillman,Lili He |
発行日 | 2025-05-20 15:19:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google