要約
自動手術ワークフロー分析は、教育、研究、臨床的意思決定には重要ですが、注釈付きデータセットの欠如は、正確で包括的なワークフロー分析ソリューションの開発を妨げます。
専門家を見て説明を理解するという人間の学習手順に触発された注釈付きトレーニングデータのスパースと不均一性に対処するための新しいアプローチを紹介します。
私たちの方法は、短期的な時点およびマルチモーダル表現を学ぶために、アライメント、除去、および生成タスクについて訓練されたビデオ言語モデルを活用しています。
次に、タスク固有の時間モデルを使用して、ビデオ全体にわたって関係をキャプチャします。
外科ドメインで包括的なビデオ言語の理解を深めるために、教育的なYouTubeビデオから大規模な事前トレーニングデータセットを構築するためのデータ収集とフィルタリング戦略を紹介します。
次に、公的に利用可能な外科的データセットから言語ドメインにダウンストリームタスク注釈を投影することにより、パラメーター効率の高い微調整を利用します。
2つの外科的ドメインでの広範な実験は、私たちのアプローチの有効性を示しており、位相セグメンテーションタスクで最大7%、ゼロショット相セグメンテーションで8%、少数のショット設定で完全に監視されたモデルに匹敵する機能を向上させます。
長距離の時間的ローカリゼーションとテキスト生成のためのモデルの機能を活用して、外科ドメインに既存のDVCデータセットが存在しないにもかかわらず、このタスクに対処するために、外科ビデオの密なビデオキャプション(DVC)の最初の包括的なソリューションを紹介します。
ビデオ言語の事前トレーニング、大規模なビデオ事前トレーニング、および最適化された微調整を活用する外科用ワークフロー理解に新しいアプローチを紹介します。
私たちの方法は、最先端の技術よりもパフォーマンスを向上させ、外科的ビデオ理解のための新しいダウンストリームタスクを可能にします。
要約(オリジナル)
Automated surgical workflow analysis is crucial for education, research, and clinical decision-making, but the lack of annotated datasets hinders the development of accurate and comprehensive workflow analysis solutions. We introduce a novel approach for addressing the sparsity and heterogeneity of annotated training data inspired by the human learning procedure of watching experts and understanding their explanations. Our method leverages a video-language model trained on alignment, denoising, and generative tasks to learn short-term spatio-temporal and multimodal representations. A task-specific temporal model is then used to capture relationships across entire videos. To achieve comprehensive video-language understanding in the surgical domain, we introduce a data collection and filtering strategy to construct a large-scale pretraining dataset from educational YouTube videos. We then utilize parameter-efficient fine-tuning by projecting downstream task annotations from publicly available surgical datasets into the language domain. Extensive experiments in two surgical domains demonstrate the effectiveness of our approach, with performance improvements of up to 7% in phase segmentation tasks, 8% in zero-shot phase segmentation, and comparable capabilities to fully-supervised models in few-shot settings. Harnessing our model’s capabilities for long-range temporal localization and text generation, we present the first comprehensive solution for dense video captioning (DVC) of surgical videos, addressing this task despite the absence of existing DVC datasets in the surgical domain. We introduce a novel approach to surgical workflow understanding that leverages video-language pretraining, large-scale video pretraining, and optimized fine-tuning. Our method improves performance over state-of-the-art techniques and enables new downstream tasks for surgical video understanding.
arxiv情報
著者 | David Gastager,Ghazal Ghazaei,Constantin Patsch |
発行日 | 2025-03-14 13:36:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google