Efficient Few-Shot Medical Image Analysis via Hierarchical Contrastive Vision-Language Learning

要約

医用画像分類における少数ショット学習には、利用可能な注釈付きデータの制限と医用画像の複雑な性質により、大きな課題が生じます。
この研究では、医用画像解析に大規模視覚言語モデル (LVLM) の機能を活用する新しいフレームワークである、階層的コントラスト調整 (HiCA) を使用した適応視覚言語微調整を提案します。
HiCA は 2 段階の微調整戦略を導入し、ドメイン固有の事前トレーニングと階層的対照学習を組み合わせて、視覚的表現とテキスト表現を複数のレベルで調整します。
私たちは胸部 X 線と乳房超音波という 2 つのベンチマーク データセットでアプローチを評価し、少数ショット設定とゼロショット設定の両方で最先端のパフォーマンスを実現します。
さらなる分析により、既存のベースラインと比較してパフォーマンスが大幅に向上し、私たちの手法の堅牢性、一般化可能性、解釈可能性が実証されました。
私たちの研究は、医用画像処理タスク特有の課題に LVLM を適応させる際の階層的コントラスト戦略の可能性を浮き彫りにしています。

要約(オリジナル)

Few-shot learning in medical image classification presents a significant challenge due to the limited availability of annotated data and the complex nature of medical imagery. In this work, we propose Adaptive Vision-Language Fine-tuning with Hierarchical Contrastive Alignment (HiCA), a novel framework that leverages the capabilities of Large Vision-Language Models (LVLMs) for medical image analysis. HiCA introduces a two-stage fine-tuning strategy, combining domain-specific pretraining and hierarchical contrastive learning to align visual and textual representations at multiple levels. We evaluate our approach on two benchmark datasets, Chest X-ray and Breast Ultrasound, achieving state-of-the-art performance in both few-shot and zero-shot settings. Further analyses demonstrate the robustness, generalizability, and interpretability of our method, with substantial improvements in performance compared to existing baselines. Our work highlights the potential of hierarchical contrastive strategies in adapting LVLMs to the unique challenges of medical imaging tasks.

arxiv情報

著者 Harrison Fuller,Fernando Gabriela Garcia,Victor Flores
発行日 2025-01-16 05:01:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク