XLIP: Cross-modal Attention Masked Modelling for Medical Language-Image Pre-Training

要約

医療分野における視覚と言語の事前学習(VLP)は、タスク間での効果的な移行を達成するために、画像とテキストのペアに対する対比学習を利用する。しかし、マスクされたモデリング戦略を用いた現在のVLPアプローチは、医療領域に適用する際に2つの課題に直面する。第一に、現在のモデルは、医療データが乏しいため、主要な病理学的特徴を正確に再構成するのに苦労している。第二に、ほとんどの手法は、対になった画像-テキストデータか画像のみのデータのどちらかしか採用せず、対になったデータと対になっていないデータの両方の組み合わせを利用することができない。このため、本稿では、非対データによる病態学習と特徴学習を強化するXLIP(Masked modelling for medical Language-Image Pre-training)フレームワークを提案する。まず、注意マスク画像モデリング(AttMIM)と実体駆動マスク言語モデリングモジュール(EntMLM)を導入し、マルチモーダル特徴相互作用により、病理学的な視覚的・テキスト的トークンを再構築する学習を行い、医療用強調特徴を改善する。AttMIMモジュールは、テキスト特徴に強く反応する画像特徴の一部をマスクする。これによりXLIPは、医療効率において類似性の高い画像データの再構成を改善することができる。第二に、我々のXLIPは、病名プロンプトを導入することにより、マルチモーダル学習を強化するために、対になっていないデータを利用する。実験の結果、XLIPは5つのデータセットにおいて、ゼロショットと微調整の分類性能でSOTAを達成した。我々のコードはhttps://github.com/White65534/XLIP。

要約(オリジナル)

Vision-and-language pretraining (VLP) in the medical field utilizes contrastive learning on image-text pairs to achieve effective transfer across tasks. Yet, current VLP approaches with the masked modelling strategy face two challenges when applied to the medical domain. First, current models struggle to accurately reconstruct key pathological features due to the scarcity of medical data. Second, most methods only adopt either paired image-text or image-only data, failing to exploit the combination of both paired and unpaired data. To this end, this paper proposes a XLIP (Masked modelling for medical Language-Image Pre-training) framework to enhance pathological learning and feature learning via unpaired data. First, we introduce the attention-masked image modelling (AttMIM) and entity-driven masked language modelling module (EntMLM), which learns to reconstruct pathological visual and textual tokens via multi-modal feature interaction, thus improving medical-enhanced features. The AttMIM module masks a portion of the image features that are highly responsive to textual features. This allows XLIP to improve the reconstruction of highly similar image data in medicine efficiency. Second, our XLIP capitalizes unpaired data to enhance multimodal learning by introducing disease-kind prompts. The experimental results show that XLIP achieves SOTA for zero-shot and fine-tuning classification performance on five datasets. Our code will be available at https://github.com/White65534/XLIP

arxiv情報

著者 Biao Wu,Yutong Xie,Zeyu Zhang,Minh Hieu Phan,Qi Chen,Ling Chen,Qi Wu
発行日 2024-08-02 10:53:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク