Text-guided Foundation Model Adaptation for Pathological Image Classification

要約

コンピューター ビジョンと自然言語処理における基礎モデルの最近の急増により、マルチモーダル臨床データを利用して、強力な一般化可能性を備えた大規模モデルをトレーニングする展望が開かれています。
しかし、病理学的画像データセットには、生物医学的なテキストの注釈や強化が欠けていることがよくあります。
生物医学テキストの知識を利用してデータ効率の高い画像診断を導くことは、大きな関心となっています。
この論文では、病理画像分類を強化するために Connect Image and Text Embeddings (CITE) を提案します。
CITE は、広範囲の生物医学テキストで事前トレーニングされた言語モデルから得られたテキストの洞察を注入し、基礎モデルを病理学的画像の理解に適応させることにつながります。
PatchGastric 胃腫瘍の病理学的画像データセットに関する広範な実験を通じて、特にトレーニング データが不足している場合に、CITE がさまざまなベースラインと比較して優れたパフォーマンスを達成することを実証しました。
CITE は、ドメイン内のテキスト知識を活用してデータ効率の高い病理画像分類を強化するための洞察を提供します。
コードは https://github.com/Yunkun-Zhang/CITE で入手できます。

要約(オリジナル)

The recent surge of foundation models in computer vision and natural language processing opens up perspectives in utilizing multi-modal clinical data to train large models with strong generalizability. Yet pathological image datasets often lack biomedical text annotation and enrichment. Guiding data-efficient image diagnosis from the use of biomedical text knowledge becomes a substantial interest. In this paper, we propose to Connect Image and Text Embeddings (CITE) to enhance pathological image classification. CITE injects text insights gained from language models pre-trained with a broad range of biomedical texts, leading to adapt foundation models towards pathological image understanding. Through extensive experiments on the PatchGastric stomach tumor pathological image dataset, we demonstrate that CITE achieves leading performance compared with various baselines especially when training data is scarce. CITE offers insights into leveraging in-domain text knowledge to reinforce data-efficient pathological image classification. Code is available at https://github.com/Yunkun-Zhang/CITE.

arxiv情報

著者 Yunkun Zhang,Jin Gao,Mu Zhou,Xiaosong Wang,Yu Qiao,Shaoting Zhang,Dequan Wang
発行日 2023-07-27 14:44:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク