Disease-informed Adaptation of Vision-Language Models

要約

医療画像分析では、専門知識の不足とデータ注釈のコストが高いため、大規模な人工知能モデルの開発が制限されています。
この論文では、この領域における事前トレーニング済みビジョン言語モデル (VLM) を使用した転移学習の可能性を調査します。
現在、VLM は依然として、存在が最小限で過小評価されている疾患や、事前トレーニング データセットにまったく存在しない新しい疾患に移行するのに苦労しています。
私たちは、VLM の効果的な適応は、疾患概念の微妙な表現の学習にかかっていると主張します。
VLM の共同視覚言語能力を活用することで、新しい疾患プロトタイプ学習フレームワークに疾患情報に基づいた文脈プロンプトを導入します。
このアプローチにより、VLM はデータが限られている場合でも、新しい病気の概念を効果的かつ効率的に把握できるようになります。
複数の画像モダリティにわたる広範な実験により、既存の技術と比較してパフォーマンスが顕著に向上していることが示されています。

要約(オリジナル)

In medical image analysis, the expertise scarcity and the high cost of data annotation limits the development of large artificial intelligence models. This paper investigates the potential of transfer learning with pre-trained vision-language models (VLMs) in this domain. Currently, VLMs still struggle to transfer to the underrepresented diseases with minimal presence and new diseases entirely absent from the pretraining dataset. We argue that effective adaptation of VLMs hinges on the nuanced representation learning of disease concepts. By capitalizing on the joint visual-linguistic capabilities of VLMs, we introduce disease-informed contextual prompting in a novel disease prototype learning framework. This approach enables VLMs to grasp the concepts of new disease effectively and efficiently, even with limited data. Extensive experiments across multiple image modalities showcase notable enhancements in performance compared to existing techniques.

arxiv情報

著者 Jiajin Zhang,Ge Wang,Mannudeep K. Kalra,Pingkun Yan
発行日 2024-05-24 17:18:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク