Self-adaptive vision-language model for 3D segmentation of pulmonary artery and vein

要約

肺構造の正確なセグメンテーションは、臨床診断、疾患研究、治療計画において非常に重要です。
深層学習ベースのセグメンテーション技術は大幅に進歩しましたが、そのほとんどはトレーニング用に大量のラベル付きデータを必要とします。
したがって、ラベル付きデータセットを少なくする必要のある正確なセグメンテーション手法を開発することが、医用画像分析において最も重要です。
CLIP などの事前トレーニング済みビジョン言語基礎モデルの出現により、最近、ユニバーサルなコンピューター ビジョン タスクへの扉が開かれました。
これらの事前トレーニングされた基礎モデルの一般化機能をセグメンテーションなどの下流タスクで利用すると、比較的少量のラベル付きデータで予期しないパフォーマンスが得られます。
ただし、肺動脈-静脈セグメンテーションのためのこれらのモデルの探索にはまだ限界があります。
この論文では、言語ガイド付き自己適応クロスアテンション フュージョン フレームワークと呼ばれる新しいフレームワークを提案します。
私たちの方法では、テキストと画像表現のクロスモダリティを適応的に集約しながら、3D CT スキャンのセグメンテーションを生成するための強力な特徴抽出器として事前トレーニングされた CLIP を採用しています。
私たちは、埋め込みの 2 つの様式を効果的に融合するために、自己適応学習戦略を使用して事前トレーニングされた CLIP を微調整するために特別に設計されたアダプター モジュールを提案します。
私たちは、これまでで最大の肺動脈-静脈 CT データセットであり、合計 718 個のラベル付きデータで構成されるローカル データセットでこの方法を広範囲に検証しています。
実験では、私たちの方法が他の最先端の方法よりも大幅に優れていることがわかりました。
私たちのデータとコードは、承認され次第、一般に公開されます。

要約(オリジナル)

Accurate segmentation of pulmonary structures iscrucial in clinical diagnosis, disease study, and treatment planning. Significant progress has been made in deep learning-based segmentation techniques, but most require much labeled data for training. Consequently, developing precise segmentation methods that demand fewer labeled datasets is paramount in medical image analysis. The emergence of pre-trained vision-language foundation models, such as CLIP, recently opened the door for universal computer vision tasks. Exploiting the generalization ability of these pre-trained foundation models on downstream tasks, such as segmentation, leads to unexpected performance with a relatively small amount of labeled data. However, exploring these models for pulmonary artery-vein segmentation is still limited. This paper proposes a novel framework called Language-guided self-adaptive Cross-Attention Fusion Framework. Our method adopts pre-trained CLIP as a strong feature extractor for generating the segmentation of 3D CT scans, while adaptively aggregating the cross-modality of text and image representations. We propose a s pecially designed adapter module to fine-tune pre-trained CLIP with a self-adaptive learning strategy to effectively fuse the two modalities of embeddings. We extensively validate our method on a local dataset, which is the largest pulmonary artery-vein CT dataset to date and consists of 718 labeled data in total. The experiments show that our method outperformed other state-of-the-art methods by a large margin. Our data and code will be made publicly available upon acceptance.

arxiv情報

著者 Xiaotong Guo,Deqian Yang,Dan Wang,Haochen Zhao,Yuan Li,Zhilin Sui,Tao Zhou,Lijun Zhang,Yanda Meng
発行日 2025-01-07 12:03:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク