Robust Surgical Phase Recognition From Annotation Efficient Supervision

要約

手術段階認識は、コンピューター支援手術における重要なタスクであり、手術手順内のさまざまな段階を自動的に識別して分類することを目的としています。
大幅な進歩にもかかわらず、現在のアプローチのほとんどは完全に監視されたトレーニングに依存しており、高価で時間のかかるフレームレベルのアノテーションが必要です。
タイムスタンプ監視は、競争力のあるパフォーマンスを維持しながら、注釈コストを大幅に削減する有望な代替手段として最近登場しました。
ただし、タイムスタンプ アノテーションでトレーニングされたモデルは、フェーズ アノテーションの欠落によって悪影響を受ける可能性があり、現実のシナリオでは潜在的な欠点につながります。
この研究では、欠落している位相アノテーションを効果的に処理できる外科位相認識の堅牢な方法を提案することで、この問題に対処します。
さらに、SkipTag@K アノテーション アプローチを外科領域に導入し、アノテーションの労力とモデルのパフォーマンスの間の柔軟なバランスを可能にします。
私たちの方法は、2 つの困難なデータセットで競合する結果を達成し、欠落している位相アノテーションの処理における有効性と、アノテーションのコストを削減する可能性を実証しています。
具体的には、ビデオあたり 3 つの注釈付きフレームのみを使用して、MultiBypass140 データセットで 85.1\% の精度を達成し、この方法の有効性と SkipTag@K セットアップの可能性を示しています。
私たちは広範な実験を行って方法の堅牢性を検証し、手術段階認識における将来の研究を導く貴重な洞察を提供します。
私たちの研究は、手術ワークフロー認識の進歩に貢献し、より効率的で信頼性の高い手術段階認識システムへの道を切り開きます。

要約(オリジナル)

Surgical phase recognition is a key task in computer-assisted surgery, aiming to automatically identify and categorize the different phases within a surgical procedure. Despite substantial advancements, most current approaches rely on fully supervised training, requiring expensive and time-consuming frame-level annotations. Timestamp supervision has recently emerged as a promising alternative, significantly reducing annotation costs while maintaining competitive performance. However, models trained on timestamp annotations can be negatively impacted by missing phase annotations, leading to a potential drawback in real-world scenarios. In this work, we address this issue by proposing a robust method for surgical phase recognition that can handle missing phase annotations effectively. Furthermore, we introduce the SkipTag@K annotation approach to the surgical domain, enabling a flexible balance between annotation effort and model performance. Our method achieves competitive results on two challenging datasets, demonstrating its efficacy in handling missing phase annotations and its potential for reducing annotation costs. Specifically, we achieve an accuracy of 85.1\% on the MultiBypass140 dataset using only 3 annotated frames per video, showcasing the effectiveness of our method and the potential of the SkipTag@K setup. We perform extensive experiments to validate the robustness of our method and provide valuable insights to guide future research in surgical phase recognition. Our work contributes to the advancement of surgical workflow recognition and paves the way for more efficient and reliable surgical phase recognition systems.

arxiv情報

著者 Or Rubin,Shlomi Laufer
発行日 2024-06-26 16:47:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク