Text-driven Adaptation of Foundation Models for Few-shot Surgical Workflow Analysis

要約

目的: 手術ワークフロー分析は、手術の効率と安全性を向上させるために非常に重要です。
ただし、これまでの研究は大規模なアノテーション付きデータセットに大きく依存しており、コスト、スケーラビリティ、専門家のアノテーションへの依存の点で課題が生じています。
これに対処するために、最小限の画像ラベル データのペアでさまざまな外科ワークフロー分析タスクを処理するように設計された Surg-FTDA (Few-shot Text-driven Adaptation) を提案します。
方法: 私たちのアプローチには 2 つの重要な要素があります。
まず、少数ショット選択ベースのモダリティ位置合わせでは、画像の小さなサブセットを選択し、その埋め込みを下流タスクからのテキスト埋め込みと位置合わせして、モダリティのギャップを橋渡しします。
第 2 に、テキスト駆動型適応では、テキスト データのみを利用してデコーダをトレーニングするため、画像とテキストのペアのデータが不要になります。
このデコーダは、整列された画像埋め込みに適用され、明示的な画像とテキストのペアを使用せずに画像関連のタスクを実行できるようになります。
結果: 生成タスク (画像キャプション) と識別タスク (トリプレット認識と位相認識) に対するアプローチを評価します。
結果は、Surg-FTDA がベースラインを上回っており、下流のタスク全体でよく一般化していることを示しています。
結論: 我々は、大規模な注釈付きデータセットへの依存を最小限に抑えながら、モダリティギャップを軽減し、外科ワークフロー分析における複数の下流タスクを処理するテキスト駆動型適応アプローチを提案します。
コードとデータセットは https://github.com/TingxuanSix/Surg-FTDA でリリースされます。

要約(オリジナル)

Purpose: Surgical workflow analysis is crucial for improving surgical efficiency and safety. However, previous studies rely heavily on large-scale annotated datasets, posing challenges in cost, scalability, and reliance on expert annotations. To address this, we propose Surg-FTDA (Few-shot Text-driven Adaptation), designed to handle various surgical workflow analysis tasks with minimal paired image-label data. Methods: Our approach has two key components. First, Few-shot selection-based modality alignment selects a small subset of images and aligns their embeddings with text embeddings from the downstream task, bridging the modality gap. Second, Text-driven adaptation leverages only text data to train a decoder, eliminating the need for paired image-text data. This decoder is then applied to aligned image embeddings, enabling image-related tasks without explicit image-text pairs. Results: We evaluate our approach to generative tasks (image captioning) and discriminative tasks (triplet recognition and phase recognition). Results show that Surg-FTDA outperforms baselines and generalizes well across downstream tasks. Conclusion: We propose a text-driven adaptation approach that mitigates the modality gap and handles multiple downstream tasks in surgical workflow analysis, with minimal reliance on large annotated datasets. The code and dataset will be released in https://github.com/TingxuanSix/Surg-FTDA.

arxiv情報

著者 Tingxuan Chen,Kun Yuan,Vinkle Srivastav,Nassir Navab,Nicolas Padoy
発行日 2025-01-16 14:18:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク