Towards Unifying Medical Vision-and-Language Pre-training via Soft Prompts


医療用視覚言語事前トレーニング (Med-VLP) は、医療画像やテキストから一般的な表現を抽出するための適用性により、多くのダウンストリーム医療タスクで有望な改善を示しています。
実際には、重いフュージョン モジュールを使用するかどうかによって、\textit{i.e.}、フュージョン エンコーダー タイプとデュアル エンコーダー タイプの 2 つの典型的なタイプが存在します。
後者は、単一モダリティ エンコーディング機能により、ユニモーダルおよびクロスモーダル タスクに適しています。
これらの 2 つのタイプを利用するために、2 つのタイプを統合する PTUnifier という名前の効果的で簡単なスキームを提案します。
最初に、最も代表的な画像/テキストを格納する機能バンクとして機能する視覚的プロンプトとテキスト プロンプトを導入することにより、入力形式を統一します。
そうすることで、単一のモデルが異なる入力フォーマット (\textit{i.e.}、image-only、text-only、image-text-pair) を採用するさまざまなタスクを処理する \textit{foundation model} として機能します。
さらに、多様性とスケーラビリティを向上させるために、(静的プールの代わりに) プロンプト プールを構築します。
実験結果は、ユニモーダル タスク (\textit{i.e.}、画像/テキスト分類、テキスト要約)、クロスモーダル タスク (\textit
{i.e.}、画像からテキストへの生成、画像からテキスト/テキスト画像の検索)、およびマルチモーダル タスク (\textit{i.e.}、視覚的な質問応答) を使用して、私たちのアプローチの有効性を示しています。
プロンプトの採用は、ほとんどの既存の Med-VLP アプローチと直交しており、これらのアプローチに対する有益で補完的な拡張になる可能性があることに注意してください。


Medical vision-and-language pre-training (Med-VLP) has shown promising improvements on many downstream medical tasks owing to its applicability to extracting generic representations from medical images and texts. Practically, there exist two typical types, \textit{i.e.}, the fusion-encoder type and the dual-encoder type, depending on whether a heavy fusion module is used. The former is superior at multi-modal tasks owing to the sufficient interaction between modalities; the latter is good at uni-modal and cross-modal tasks due to the single-modality encoding ability. To take advantage of these two types, we propose an effective yet straightforward scheme named PTUnifier to unify the two types. We first unify the input format by introducing visual and textual prompts, which serve as a feature bank that stores the most representative images/texts. By doing so, a single model could serve as a \textit{foundation model} that processes various tasks adopting different input formats (\textit{i.e.}, image-only, text-only, and image-text-pair). Furthermore, we construct a prompt pool (instead of static ones) to improve diversity and scalability. Experimental results show that our approach achieves state-of-the-art results on a broad range of tasks, spanning uni-modal tasks (\textit{i.e.}, image/text classification and text summarization), cross-modal tasks (\textit{i.e.}, image-to-text generation and image-text/text-image retrieval), and multi-modal tasks (\textit{i.e.}, visual question answering), demonstrating the effectiveness of our approach. Note that the adoption of prompts is orthogonal to most existing Med-VLP approaches and could be a beneficial and complementary extension to these approaches.


