要約
リアルタイムの超音波画像セグメンテーションのために階層ビジョンファンデーションモデルを適応させる新しいアプローチを提案します。
既存の超音波セグメンテーション方法は、多くの場合、コストのかかる手動注釈に依存して、新しいタスクへの適応性と格闘しますが、リアルタイムのアプローチは一般に最先端のパフォーマンスと一致しません。
これらの制限を克服するために、Vision Foundation Model Hieraを活用してマルチスケールの特徴を抽出する適応フレームワークを紹介します。これは、視覚的表現力を高めるためにDINOV2表現とインターリーブします。
次に、これらの濃縮された機能をデコードして、正確で堅牢なセグメンテーションを生成します。
6つのパブリックデータセットと1つの社内データセットで広範な評価を実施し、心臓と甲状腺の両方の超音波セグメンテーションをカバーしています。
実験では、私たちのアプローチは、複数のデータセットで最新のメソッドを上回り、監督が限られていることを示しており、1 \%および10 \%のデータ設定で平均20 \%を超えてnnunetを上回ります。
私たちの方法は、単一のGPUでTensortを使用して$ \ SIM $ 77 FPS推論速度を達成し、リアルタイムの臨床アプリケーションを可能にします。
要約(オリジナル)
We propose a novel approach that adapts hierarchical vision foundation models for real-time ultrasound image segmentation. Existing ultrasound segmentation methods often struggle with adaptability to new tasks, relying on costly manual annotations, while real-time approaches generally fail to match state-of-the-art performance. To overcome these limitations, we introduce an adaptive framework that leverages the vision foundation model Hiera to extract multi-scale features, interleaved with DINOv2 representations to enhance visual expressiveness. These enriched features are then decoded to produce precise and robust segmentation. We conduct extensive evaluations on six public datasets and one in-house dataset, covering both cardiac and thyroid ultrasound segmentation. Experiments show that our approach outperforms state-of-the-art methods across multiple datasets and excels with limited supervision, surpassing nnUNet by over 20\% on average in the 1\% and 10\% data settings. Our method achieves $\sim$77 FPS inference speed with TensorRT on a single GPU, enabling real-time clinical applications.
arxiv情報
著者 | Xiaoran Zhang,Eric Z. Chen,Lin Zhao,Xiao Chen,Yikang Liu,Boris Maihe,James S. Duncan,Terrence Chen,Shanhui Sun |
発行日 | 2025-03-31 17:47:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google