要約
心血管疾患 (CVD) の心エコー検査に基づく評価には、正確なセグメンテーションが不可欠です。
ただし、超音波検査者間のばらつきと超音波画像固有の課題により、正確なセグメンテーションが妨げられます。
画像とテキストのモダリティの共同表現を活用することで、視覚言語セグメンテーション モデル (VLSM) に豊富なコンテキスト情報を組み込むことができ、正確で説明可能なセグメンテーションを支援できる可能性があります。
しかし、心エコー検査ではすぐに利用できるデータが不足しているため、VLSM のトレーニングが妨げられています。
この研究では、セマンティック拡散モデル (SDM) からの合成データセットを使用して、心エコー検査セグメンテーションの VLSM を強化することを検討します。
心エコー検査画像、セグメンテーション マスク、およびそれらのメタデータから自動的に抽出されたいくつかの属性から派生した 7 種類の言語プロンプトを使用して、2 つの一般的な VLSM (CLIPSeg および CRIS) の結果を評価します。
私たちの結果は、実際の画像で微調整する前に SDM で生成された合成画像で VLSM を事前トレーニングすると、メトリクスが向上し、収束が高速になることを示しています。
コード、構成、プロンプトは https://github.com/naamiinepal/synthetic-boost で入手できます。
要約(オリジナル)
Accurate segmentation is essential for echocardiography-based assessment of cardiovascular diseases (CVDs). However, the variability among sonographers and the inherent challenges of ultrasound images hinder precise segmentation. By leveraging the joint representation of image and text modalities, Vision-Language Segmentation Models (VLSMs) can incorporate rich contextual information, potentially aiding in accurate and explainable segmentation. However, the lack of readily available data in echocardiography hampers the training of VLSMs. In this study, we explore using synthetic datasets from Semantic Diffusion Models (SDMs) to enhance VLSMs for echocardiography segmentation. We evaluate results for two popular VLSMs (CLIPSeg and CRIS) using seven different kinds of language prompts derived from several attributes, automatically extracted from echocardiography images, segmentation masks, and their metadata. Our results show improved metrics and faster convergence when pretraining VLSMs on SDM-generated synthetic images before finetuning on real images. The code, configs, and prompts are available at https://github.com/naamiinepal/synthetic-boost.
arxiv情報
著者 | Rabin Adhikari,Manish Dhakal,Safal Thapaliya,Kanchan Poudel,Prasiddha Bhandari,Bishesh Khanal |
発行日 | 2023-09-22 12:36:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google