要約
深層学習による医療画像のセグメンテーションは、疾患の診断、予後、手術計画、理解に役立つ標的構造のサイズと形状を定量化できるため、重要かつ広く研究されているトピックです。
基礎 VLM の最近の進歩と、VLSM を使用した自然画像のセグメンテーション タスクへの VLM の適応により、医療画像用の潜在的に強力なセグメンテーション モデルを構築するユニークな機会が開かれました。これにより、入力として言語プロンプトを介して有用な情報を提供できるようになり、他の幅広い医療機能を活用できるようになります。
プールされたデータセット トレーニングによってイメージング データセットを作成し、新しいクラスに適応し、推論中の人間参加型プロンプトにより分布外のデータに対して堅牢になります。
画像のみのセグメンテーション モデルに対する自然画像から医用画像への転移学習は研究されていますが、セグメンテーション問題において視覚と言語の共同表現がどのように医用画像に転移するのかを分析し、それらの可能性を最大限に活用する際のギャップを理解する研究はありません。
我々は、14の属性から慎重に提示された9種類の言語プロンプトを備えた、さまざまなモダリティの慎重に収集された11の既存の2D医用画像データセットを使用した、2D医用画像へのVLSMの転移学習に関する最初のベンチマーク研究を紹介します。
私たちの結果は、自然な画像とテキストのペアで訓練された VLSM は、放射線学以外の写真モダリティについて適切に指示された場合、ゼロショット設定の医療領域に合理的に移行することを示しています。
微調整すると、X 線や超音波検査でも従来のアーキテクチャと同等のパフォーマンスが得られます。
ただし、微調整中の言語プロンプトの追加の利点は限定的であり、画像の特徴がより支配的な役割を果たす可能性があります。
これらは、多様なモダリティを組み合わせたプールされたデータセットでのトレーニングをより適切に処理でき、従来のセグメンテーション モデルよりもドメイン シフトに対してより堅牢になる可能性があります。
要約(オリジナル)
Medical image segmentation with deep learning is an important and widely studied topic because segmentation enables quantifying target structure size and shape that can help in disease diagnosis, prognosis, surgery planning, and understanding. Recent advances in the foundation VLMs and their adaptation to segmentation tasks in natural images with VLSMs have opened up a unique opportunity to build potentially powerful segmentation models for medical images that enable providing helpful information via language prompt as input, leverage the extensive range of other medical imaging datasets by pooled dataset training, adapt to new classes, and be robust against out-of-distribution data with human-in-the-loop prompting during inference. Although transfer learning from natural to medical images for image-only segmentation models has been studied, no studies have analyzed how the joint representation of vision-language transfers to medical images in segmentation problems and understand gaps in leveraging their full potential. We present the first benchmark study on transfer learning of VLSMs to 2D medical images with thoughtfully collected 11 existing 2D medical image datasets of diverse modalities with carefully presented 9 types of language prompts from 14 attributes. Our results indicate that VLSMs trained in natural image-text pairs transfer reasonably to the medical domain in zero-shot settings when prompted appropriately for non-radiology photographic modalities; when finetuned, they obtain comparable performance to conventional architectures, even in X-rays and ultrasound modalities. However, the additional benefit of language prompts during finetuning may be limited, with image features playing a more dominant role; they can better handle training on pooled datasets combining diverse modalities and are potentially more robust to domain shift than the conventional segmentation models.
arxiv情報
著者 | Kanchan Poudel,Manish Dhakal,Prasiddha Bhandari,Rabin Adhikari,Safal Thapaliya,Bishesh Khanal |
発行日 | 2023-09-22 12:21:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google