要約
Contrastive Language-Image Pre-training (CLIP) は医療画像分析に有望ですが、大量のデータと計算リソースが必要です。
これらの制限により、医用画像における既存の CLIP アプリケーションは主に胸部 X 線などの画像レポート データが豊富に利用できるモダリティに焦点を当てており、他の多くの重要なモダリティは十分に検討されていません。
ここでは、完全な CLIP モデルをマンモグラフィーに初めて適用することを提案します。これには、ラベル付きデータの不足、関心領域が小さい高解像度画像、およびデータの不均衡により、重大な課題が生じます。
私たちはまず、マルチビューの性質を活用したマンモグラフィー専用の監視フレームワークを開発します。
さらに、高解像度画像の詳細な特徴に焦点を合わせるために、対称的なローカル アライメント モジュールを設計します。
最後に、データの制限に対処するために、医学的知識に基づいて事前トレーニングされた大規模な言語モデルに対して、パラメーター効率の高い微調整アプローチを組み込みます。
当社のマルチビューおよびマルチスケール アライメント (MaMA) 手法は、EMBED と RSNA-Mammo という 2 つの大規模な実世界のマンモグラフィ データセットに対する 3 つの異なるタスクの最先端のベースラインを上回り、モデル サイズは従来のものと比較してわずか 52% です。
最大のベースライン。
要約(オリジナル)
Contrastive Language-Image Pre-training (CLIP) shows promise in medical image analysis but requires substantial data and computational resources. Due to these restrictions, existing CLIP applications in medical imaging focus mainly on modalities like chest X-rays that have abundant image-report data available, leaving many other important modalities under-explored. Here, we propose the first adaptation of the full CLIP model to mammography, which presents significant challenges due to labeled data scarcity, high-resolution images with small regions of interest, and data imbalance. We first develop a specialized supervision framework for mammography that leverages its multi-view nature. Furthermore, we design a symmetric local alignment module to better focus on detailed features in high-resolution images. Lastly, we incorporate a parameter-efficient fine-tuning approach for large language models pre-trained with medical knowledge to address data limitations. Our multi-view and multi-scale alignment (MaMA) method outperforms state-of-the-art baselines for three different tasks on two large real-world mammography datasets, EMBED and RSNA-Mammo, with only 52% model size compared with the largest baseline.
arxiv情報
著者 | Yuexi Du,John Onofrey,Nicha C. Dvornek |
発行日 | 2024-09-26 17:56:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google