Text-driven Adaptation of Foundation Models for Few-shot Surgical Workflow Analysis

要約

目的:外科的ワークフロー分析は、外科的効率と安全性を改善するために重要です。
ただし、以前の研究は、大規模な注釈付きデータセットに大きく依存しており、コスト、スケーラビリティ、および専門家の注釈への依存の課題を提起しています。
これに対処するために、最小限のペアの画像ラベルデータでさまざまな外科的ワークフロー分析タスクを処理するように設計されたSurg-FTDA(少数のテキスト駆動型適応)を提案します。
方法:私たちのアプローチには2つの重要なコンポーネントがあります。
まず、少数のショットベースのモダリティアラインメントは、画像の小さなサブセットを選択し、下流タスクからのテキスト埋め込みで埋め込みを整列させ、モダリティギャップを埋めます。
第二に、テキスト駆動型の適応はテキストデータのみを活用してデコーダーをトレーニングし、ペアの画像テキストデータの必要性を排除します。
このデコーダーは、明示的な画像テキストペアなしで画像関連のタスクを有効にするために、アライメントされた画像埋め込みに適用されます。
結果:生成タスク(画像キャプション)および識別タスク(トリプレット認識と位相認識)へのアプローチを評価します。
結果は、Surg-FTDAがベースラインを上回り、下流のタスクを越えてよく一般化することを示しています。
結論:モダリティギャップを軽減し、大規模な注釈付きデータセットへの依存を最小限に抑えて、外科用ワークフロー分析で複数の下流タスクを処理するテキスト駆動型の適応アプローチを提案します。
コードとデータセットはhttps://github.com/camma-public/surg-ftdaでリリースされます

要約(オリジナル)

Purpose: Surgical workflow analysis is crucial for improving surgical efficiency and safety. However, previous studies rely heavily on large-scale annotated datasets, posing challenges in cost, scalability, and reliance on expert annotations. To address this, we propose Surg-FTDA (Few-shot Text-driven Adaptation), designed to handle various surgical workflow analysis tasks with minimal paired image-label data. Methods: Our approach has two key components. First, Few-shot selection-based modality alignment selects a small subset of images and aligns their embeddings with text embeddings from the downstream task, bridging the modality gap. Second, Text-driven adaptation leverages only text data to train a decoder, eliminating the need for paired image-text data. This decoder is then applied to aligned image embeddings, enabling image-related tasks without explicit image-text pairs. Results: We evaluate our approach to generative tasks (image captioning) and discriminative tasks (triplet recognition and phase recognition). Results show that Surg-FTDA outperforms baselines and generalizes well across downstream tasks. Conclusion: We propose a text-driven adaptation approach that mitigates the modality gap and handles multiple downstream tasks in surgical workflow analysis, with minimal reliance on large annotated datasets. The code and dataset will be released in https://github.com/CAMMA-public/Surg-FTDA

arxiv情報

著者 Tingxuan Chen,Kun Yuan,Vinkle Srivastav,Nassir Navab,Nicolas Padoy
発行日 2025-01-27 16:28:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク