Tuning Vision Foundation Model via Test-Time Prompt-Guided Training for VFSS Segmentations

要約

Vision Foundationモデルは、ジェネリック画像と特殊な画像の両方のセグメンテーションタスクの例外的な一般化機能を実証しています。
ただし、基礎モデルとタスク固有の専門モデルの間にはパフォーマンスギャップが持続します。
多くの場合、このギャップを埋めるために、下流のデータセットの微調整基盤モデルが必要です。
残念ながら、ダウンストリームデータセットの完全に注釈付きのグラウンドトゥルースを取得することは、挑戦的で費用がかかります。
この制限に対処するために、完全な注釈を必要とせずに下流のデータセットでの基礎モデルのパフォーマンスを向上させる新しいテスト時間トレーニングパラダイムを提案します。
具体的には、私たちの方法では、テスト時間の半自己監視トレーニングタスクをガイドするために、単純なポイントプロンプトを採用しています。
このモデルは、さまざまな増強を通じてポイントプロンプトのあいまいさを解決することにより学習します。
このアプローチは、注釈を取得することが時間帯で高価な医療画像分野での課題に直接取り組んでいます。
インスタンスセグメンテーションタスクのために、新しいVideoFluoroscopy Dataset(VFSS-5K)で広範な実験を実施し、単一のモデルで12の解剖学にわたって平均ダイス係数0.868を達成しました。

要約(オリジナル)

Vision foundation models have demonstrated exceptional generalization capabilities in segmentation tasks for both generic and specialized images. However, a performance gap persists between foundation models and task-specific, specialized models. Fine-tuning foundation models on downstream datasets is often necessary to bridge this gap. Unfortunately, obtaining fully annotated ground truth for downstream datasets is both challenging and costly. To address this limitation, we propose a novel test-time training paradigm that enhances the performance of foundation models on downstream datasets without requiring full annotations. Specifically, our method employs simple point prompts to guide a test-time semi-self-supervised training task. The model learns by resolving the ambiguity of the point prompt through various augmentations. This approach directly tackles challenges in the medical imaging field, where acquiring annotations is both time-intensive and expensive. We conducted extensive experiments on our new Videofluoroscopy dataset (VFSS-5k) for the instance segmentation task, achieving an average Dice coefficient of 0.868 across 12 anatomies with a single model.

arxiv情報

著者 Chengxi Zeng,David Smithard,Alberto M Gambaruto,Tilo Burghardt
発行日 2025-01-30 16:48:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク