要約
マルチモーダル学習は、補完的なデータソースからの情報を統合することにより、医療画像分析を改善するための重要な約束を示しています。
これは、組織学の画像とテキストレポートに基づいたがん検出のために、ビジョン言語モデル(VLM)をトレーニングするために広く採用されています。
ただし、これらのVLMのトレーニングにおける主な制限の1つは、大規模なペアのデータセット、プライバシー、データ収集、注釈、メンテナンスコストに対する懸念を高める要件です。
この課題に対処するために、Clip-ITメソッドを紹介して、Vision Backboneモデルをトレーニングして、外部ソースからの特権的なテキスト情報と組織画像を組み合わせて分類します。
最初は、モダリティペアリングステップは、クリップベースのモデルに依存して、組織学の画像を外部ソースからの意味的に関連するテキストレポートデータと一致させ、手動でペアのサンプルを必要とせずに拡張マルチモーダルデータセットを作成します。
次に、推論中にテキストデータを必要とせずに、パフォーマンスを強化するために、ペアのテキストモダリティからユニモーダル画像分類器に知識を蒸留するマルチモーダルトレーニング手順を提案します。
パラメーター効率の高い微調整方法を使用して、メイン(画像)とペアの(テキスト)モダリティの間の不整合に効率的に対処します。
推論中、改善された単峰性組織分類剤が使用され、追加の計算の複雑さのみが最小限に抑えられます。
挑戦的なPCAM、CRC、およびBACHの組織学画像データセットに関する実験は、CLIP-ITが特権テキスト情報を活用し、組織学の単峰性分類器を上回るための費用対効果の高いアプローチを提供できることを示しています。
要約(オリジナル)
Multimodal learning has shown significant promise for improving medical image analysis by integrating information from complementary data sources. This is widely employed for training vision-language models (VLMs) for cancer detection based on histology images and text reports. However, one of the main limitations in training these VLMs is the requirement for large paired datasets, raising concerns over privacy, and data collection, annotation, and maintenance costs. To address this challenge, we introduce CLIP-IT method to train a vision backbone model to classify histology images by pairing them with privileged textual information from an external source. At first, the modality pairing step relies on a CLIP-based model to match histology images with semantically relevant textual report data from external sources, creating an augmented multimodal dataset without the need for manually paired samples. Then, we propose a multimodal training procedure that distills the knowledge from the paired text modality to the unimodal image classifier for enhanced performance without the need for the textual data during inference. A parameter-efficient fine-tuning method is used to efficiently address the misalignment between the main (image) and paired (text) modalities. During inference, the improved unimodal histology classifier is used, with only minimal additional computational complexity. Our experiments on challenging PCAM, CRC, and BACH histology image datasets show that CLIP-IT can provide a cost-effective approach to leverage privileged textual information and outperform unimodal classifiers for histology.
arxiv情報
著者 | Banafsheh Karimian,Giulia Avanzato,Soufian Belharbi,Luke McCaffrey,Mohammadhadi Shateri,Eric Granger |
発行日 | 2025-05-30 17:29:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google