Pseudo-Prompt Generating in Pre-trained Vision-Language Models for Multi-Label Medical Image Classification

要約

医用画像認識のタスクは、さまざまで複数の病理学的兆候が存在するため特に複雑であり、目に見えないラベルを使用したマルチラベル分類に特有の課題が生じています。
この複雑さは、マルチラベルのゼロショット学習を採用したコンピューター支援診断法の必要性を強調しています。
事前トレーニング済み視覚言語モデル (VLM) の最近の進歩により、医療画像における注目すべきゼロショット分類能力が実証されました。
ただし、これらの方法には、より広範な画像データセットから事前に訓練された広範な知識を活用することに限界があり、多くの場合、専門の放射線科医による手動の迅速な構築に依存します。
プロンプト チューニングのプロセスを自動化することにより、VLM を下流のタスクに適応させる効率的な方法として、プロンプト学習手法が登場しました。
しかし、既存の CoOp ベースの戦略は、目に見えないカテゴリに対してクラス固有のプロンプトを実行するには不十分であり、きめの細かいシナリオでの一般化が制限されています。
これらの制約を克服するために、自然言語処理 (NLP) でのテキスト生成にヒントを得た新しいプロンプト生成アプローチを導入します。
擬似プロンプト生成 (PsPG) と名付けられた私たちの手法は、マルチモーダル機能の先験的な知識を活用しています。
RNN ベースのデコーダを特徴とする PsPG は、クラスに合わせた埋め込みベクトル、つまり擬似プロンプトを自己回帰的に生成します。
さまざまなマルチラベルの胸部 X 線写真データセットの比較評価により、主要な医療視覚言語およびマルチラベルの即時学習方法に対する我々のアプローチの優位性が確認されています。
ソース コードは https://github.com/fallingnight/PsPG で入手できます。

要約(オリジナル)

The task of medical image recognition is notably complicated by the presence of varied and multiple pathological indications, presenting a unique challenge in multi-label classification with unseen labels. This complexity underlines the need for computer-aided diagnosis methods employing multi-label zero-shot learning. Recent advancements in pre-trained vision-language models (VLMs) have showcased notable zero-shot classification abilities on medical images. However, these methods have limitations on leveraging extensive pre-trained knowledge from broader image datasets, and often depend on manual prompt construction by expert radiologists. By automating the process of prompt tuning, prompt learning techniques have emerged as an efficient way to adapt VLMs to downstream tasks. Yet, existing CoOp-based strategies fall short in performing class-specific prompts on unseen categories, limiting generalizability in fine-grained scenarios. To overcome these constraints, we introduce a novel prompt generation approach inspirited by text generation in natural language processing (NLP). Our method, named Pseudo-Prompt Generating (PsPG), capitalizes on the priori knowledge of multi-modal features. Featuring a RNN-based decoder, PsPG autoregressively generates class-tailored embedding vectors, i.e., pseudo-prompts. Comparative evaluations on various multi-label chest radiograph datasets affirm the superiority of our approach against leading medical vision-language and multi-label prompt learning methods. The source code is available at https://github.com/fallingnight/PsPG

arxiv情報

著者 Yaoqin Ye,Junjie Zhang,Hongwei Shi
発行日 2024-07-26 14:18:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク