要約
大規模な事前トレーニング済みのビジョン言語モデル (VLM) は、自然画像で驚くべきドメイン転送機能を示しています。
ただし、この機能が医用画像領域にも適用できるかどうかは不明です。
このホワイト ペーパーでは、事前にトレーニングされた VLM の知識を医療分野に移す可能性を徹底的に研究し、適切に設計された医療プロンプトが、事前にトレーニングされた VLM から知識を引き出すための鍵であることを示します。
ドメイン間で共有される表現力豊かな属性でプロンプトを表示することにより、VLM がドメイン間で知識を伝達し、その一般化を改善できることを実証します。
このメカニズムにより、VLM は画像サンプルが少ないか、またはなくても新しいオブジェクトを認識できるようになります。
さらに、面倒な手動設計プロセスを回避するために、医療プロンプトの自動生成のための 3 つのアプローチを開発します。これにより、専門家レベルの医療知識と画像固有の情報をプロンプトに注入して、きめ細かなグラウンディングを実現できます。
さまざまなモダリティにわたる 13 の異なる医療データセットで大規模な実験を行い、適切に設計されたプロンプトがデフォルトのプロンプトと比較してゼロショットのパフォーマンスを大幅に改善し、微調整されたモデルが教師ありモデルを大幅に上回ることを示しています。
要約(オリジナル)
The large-scale pre-trained vision language models (VLM) have shown remarkable domain transfer capability on natural images. However, it remains unknown whether this capability can also apply to the medical image domain. This paper thoroughly studies the knowledge transferability of pre-trained VLMs to the medical domain, where we show that well-designed medical prompts are the key to elicit knowledge from pre-trained VLMs. We demonstrate that by prompting with expressive attributes that are shared between domains, the VLM can carry the knowledge across domains and improve its generalization. This mechanism empowers VLMs to recognize novel objects with fewer or without image samples. Furthermore, to avoid the laborious manual designing process, we develop three approaches for automatic generation of medical prompts, which can inject expert-level medical knowledge and image-specific information into the prompts for fine-grained grounding. We conduct extensive experiments on thirteen different medical datasets across various modalities, showing that our well-designed prompts greatly improve the zero-shot performance compared to the default prompts, and our fine-tuned models surpass the supervised models by a significant margin.
arxiv情報
著者 | Ziyuan Qin,Huahui Yi,Qicheng Lao,Kang Li |
発行日 | 2022-09-30 15:06:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google