XCoOp: Explainable Prompt Learning for Computer-Aided Diagnosis via Concept-guided Context Optimization

要約

大規模ビジョン言語モデル (VLM) の強力な表現を利用して、さまざまな下流タスクを実行することがますます注目を集めています。
この研究分野では、ソフト プロンプト学習は、CLIP などの VLM を画像分類などのタスクに効率的に適応させるための代表的なアプローチとなっています。
ただし、既存のプロンプト学習手法のほとんどは説明不可能なテキスト トークンを学習するため、医療のような一か八かのシナリオにおける説明可能な人工知能 (XAI) の厳しい解釈可能性要件を満たすことができません。
この問題に対処するために、画像、学習可能なプロンプト、および臨床概念主導のプロンプトのセマンティクスを複数の粒度で調整することにより、医学知識を活用する、新しい説明可能なプロンプト学習フレームワークを提案します。
さらに、私たちのフレームワークは、大規模な言語モデルから知識を引き出すことで、貴重な概念の注釈の欠如に対処し、プロンプトに対して視覚的およびテキストの両方の説明を提供します。
概念ラベルの有無にかかわらず、さまざまなデータセットに対して行われた広範な実験と説明可能性分析により、私たちの方法が優れた診断性能、柔軟性、解釈可能性を同時に実現していることが実証され、XAI の促進における基礎モデルの有効性が明らかになりました。
コードは公開されます。

要約(オリジナル)

Utilizing potent representations of the large vision-language models (VLMs) to accomplish various downstream tasks has attracted increasing attention. Within this research field, soft prompt learning has become a representative approach for efficiently adapting VLMs such as CLIP, to tasks like image classification. However, most existing prompt learning methods learn text tokens that are unexplainable, which cannot satisfy the stringent interpretability requirements of Explainable Artificial Intelligence (XAI) in high-stakes scenarios like healthcare. To address this issue, we propose a novel explainable prompt learning framework that leverages medical knowledge by aligning the semantics of images, learnable prompts, and clinical concept-driven prompts at multiple granularities. Moreover, our framework addresses the lack of valuable concept annotations by eliciting knowledge from large language models and offers both visual and textual explanations for the prompts. Extensive experiments and explainability analyses conducted on various datasets, with and without concept labels, demonstrate that our method simultaneously achieves superior diagnostic performance, flexibility, and interpretability, shedding light on the effectiveness of foundation models in facilitating XAI. The code will be made publically available.

arxiv情報

著者 Yequan Bie,Luyang Luo,Zhixuan Chen,Hao Chen
発行日 2024-03-14 14:02:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク