Exploring Transfer Learning in Medical Image Segmentation using Vision-Language Models

要約

医療画像のセグメンテーションは、医療分野のさまざまな臨床アプリケーションにおいて重要です。
最先端のセグメンテーション モデルは効果的であることが証明されていますが、このタスクの視覚的機能を強化するためのテキスト ガイダンスの統合は、依然として進歩が限られている領域です。
テキストによるガイダンスを利用する既存のセグメンテーション モデルは、主にオープン ドメインの画像でトレーニングされており、手動介入や微調整なしで医療分野に直接適用できるかどうかの懸念が生じています。
これらの課題に対処するために、私たちは、画像の説明や画像から意味論的な情報を取得するためのマルチモーダル視覚言語モデルを使用し、多様な医療画像のセグメンテーションを可能にすることを提案します。
この研究では、複数のデータセットにわたる既存の視覚言語モデルを包括的に評価し、オープンドメインから医療分野への移行可能性を評価します。
さらに、データセット内のこれまでに見たことのない画像の画像説明のバリエーションを導入し、生成されたプロンプトに基づいたモデルのパフォーマンスの顕著な変動を明らかにします。
私たちの調査結果は、オープンドメイン画像と医療ドメインの間の分布の変化を強調し、オープンドメイン画像でトレーニングされたセグメンテーションモデルが医療分野に直接転用できないことを示しています。
ただし、医療データセット内で微調整することでパフォーマンスを向上させることができます。
14 の属性から派生した 9 種類のプロンプトを使用して、11 の医療データセットに対する 4 つのビジョン言語モデル (VLM) のゼロショットおよび微調整されたセグメンテーション パフォーマンスを報告します。

要約(オリジナル)

Medical Image Segmentation is crucial in various clinical applications within the medical domain. While state-of-the-art segmentation models have proven effective, integrating textual guidance to enhance visual features for this task remains an area with limited progress. Existing segmentation models that utilize textual guidance are primarily trained on open-domain images, raising concerns about their direct applicability in the medical domain without manual intervention or fine-tuning. To address these challenges, we propose using multimodal vision-language models for capturing semantic information from image descriptions and images, enabling the segmentation of diverse medical images. This study comprehensively evaluates existing vision language models across multiple datasets to assess their transferability from the open domain to the medical field. Furthermore, we introduce variations of image descriptions for previously unseen images in the dataset, revealing notable variations in model performance based on the generated prompts. Our findings highlight the distribution shift between the open-domain images and the medical domain and show that the segmentation models trained on open-domain images are not directly transferrable to the medical field. But their performance can be increased by finetuning them in the medical datasets. We report the zero-shot and finetuned segmentation performance of 4 Vision Language Models (VLMs) on 11 medical datasets using 9 types of prompts derived from 14 attributes.

arxiv情報

著者 Kanchan Poudel,Manish Dhakal,Prasiddha Bhandari,Rabin Adhikari,Safal Thapaliya,Bishesh Khanal
発行日 2023-08-15 11:28:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク