Medical Image Understanding with Pretrained Vision Language Models: A Comprehensive Study

要約

大規模な事前学習を行った視覚言語モデル(VLM)は、自然画像において顕著な領域変換能力を示している。しかし、この能力が医療画像領域にも適用できるかどうかは未知数である。本論文では、事前学習済みVLMの医療領域への知識移転能力を徹底的に研究し、事前学習済みVLMから知識を引き出すためには、適切に設計された医療プロンプトが鍵になることを示す。また、領域間で共有される表現力豊かな属性を用いてプロンプトを出すことで、VLMは領域横断的に知識を伝達し、その汎化性を向上させることができることを示す。このメカニズムにより、VLMは少ない画像サンプルや画像サンプルがない場合でも、新しい物体を認識することができる。さらに、医療プロンプトの自動生成のために3つのアプローチを開発し、専門家レベルの医療知識と画像固有の情報をプロンプトに注入して、きめ細かい根拠を与えることができるようにした。我々は、様々なモダリティの13種類の医療データセットに対して広範な実験を行い、我々の適切に設計されたプロンプトがデフォルトプロンプトに比べてゼロショット性能を大幅に改善し、我々の微調整されたモデルが教師付きモデルを大幅に上回ることを示す。

要約(オリジナル)

The large-scale pre-trained vision language models (VLM) have shown remarkable domain transfer capability on natural images. However, it remains unknown whether this capability can also apply to the medical image domain. This paper thoroughly studies the knowledge transferability of pre-trained VLMs to the medical domain, where we show that well-designed medical prompts are the key to elicit knowledge from pre-trained VLMs. We demonstrate that by prompting with expressive attributes that are shared between domains, the VLM can carry the knowledge across domains and improve its generalization. This mechanism empowers VLMs to recognize novel objects with fewer or without image samples. Furthermore, to avoid the laborious manual designing process, we develop three approaches for automatic generation of medical prompts, which can inject expert-level medical knowledge and image-specific information into the prompts for fine-grained grounding. We conduct extensive experiments on thirteen different medical datasets across various modalities, showing that our well-designed prompts greatly improve the zero-shot performance compared to the default prompts, and our fine-tuned models surpass the supervised models by a significant margin.

arxiv情報

著者 Ziyuan Qin,Huahui Yi,Qicheng Lao,Kang Li
発行日 2023-02-07 16:11:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク