要約
医療ビジョン言語モデルにより、医療画像と臨床テキストの機能を共同学習および統合できます。
ただし、これらのモデルはトレーニングが簡単ではなく、潜在表現空間が複雑になる可能性があります。
ここでは、医療視覚言語モデルを事前トレーニングし、正規化するための新しい方法を提案します。
提案された方法は、凍結言語モデルと潜在空間ジオメトリ最適化による医療ビジョン言語事前トレーニング (M-FLAG) と名付けられ、トレーニングの安定性と効率のために凍結言語モデルを活用し、潜在空間ジオメトリを調和させるために新しい直交性損失を導入します。
私たちは、医療画像分類、セグメンテーション、物体検出という 3 つの下流タスクにおける事前トレーニング済みモデルの可能性を実証します。
5 つの公開データセットにわたる広範な実験により、M-FLAG が既存の医療視覚言語の事前トレーニング アプローチを大幅に上回り、パラメーターの数が 78\% 削減されることが実証されました。
特に、M-FLAG は RSNA データセットの 1\% のみを使用しながらセグメンテーション タスクで優れたパフォーマンスを達成し、データの 100\% を使用して微調整された ImageNet の事前トレーニング済みモデルをも上回るパフォーマンスを実現します。
要約(オリジナル)
Medical vision-language models enable co-learning and integrating features from medical imaging and clinical text. However, these models are not easy to train and the latent representation space can be complex. Here we propose a novel way for pre-training and regularising medical vision-language models. The proposed method, named Medical vision-language pre-training with Frozen language models and Latent spAce Geometry optimization (M-FLAG), leverages a frozen language model for training stability and efficiency and introduces a novel orthogonality loss to harmonize the latent space geometry. We demonstrate the potential of the pre-trained model on three downstream tasks: medical image classification, segmentation, and object detection. Extensive experiments across five public datasets demonstrate that M-FLAG significantly outperforms existing medical vision-language pre-training approaches and reduces the number of parameters by 78\%. Notably, M-FLAG achieves outstanding performance on the segmentation task while using only 1\% of the RSNA dataset, even outperforming ImageNet pre-trained models that have been fine-tuned using 100\% of the data.
arxiv情報
著者 | Che Liu,Sibo Cheng,Chen Chen,Mengyun Qiao,Weitong Zhang,Anand Shah,Wenjia Bai,Rossella Arcucci |
発行日 | 2023-07-19 13:55:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google