MuST: Multi-Scale Transformers for Surgical Phase Recognition

要約

手術ビデオにおける位相認識は、一連の手術段階の自動理解を可能にするため、コンピュータ支援手術システムを強化するために非常に重要です。
既存の方法では、動的な手術段階を特定するためにビデオ分析の固定時間ウィンドウに依存することがよくあります。
したがって、複雑な外科手術を完全に理解するために必要な短期、中期、長期の情報を同時に取得するのに苦労しています。
これらの問題に対処するために、我々は、手術段階認識のためのマルチスケールトランスフォーマー(MuST)を提案します。これは、マルチタームフレームエンコーダーと時間的一貫性モジュールを組み合わせて、手術ビデオの複数の時間スケールにわたる情報をキャプチャする新しいトランスフォーマーベースのアプローチです。
当社の Multi-Term Frame Encoder は、対象のフレームの周囲でストライドを増加させながらシーケンスをサンプリングすることにより、時間スケールの階層にわたる相互依存関係を計算します。
さらに、長期推論をさらに強化するために、フレーム埋め込みに対して長期 Transformer エンコーダを採用します。
MuST は、3 つの異なる公開ベンチマークにおいて、以前の最先端の手法よりも高いパフォーマンスを達成します。

要約(オリジナル)

Phase recognition in surgical videos is crucial for enhancing computer-aided surgical systems as it enables automated understanding of sequential procedural stages. Existing methods often rely on fixed temporal windows for video analysis to identify dynamic surgical phases. Thus, they struggle to simultaneously capture short-, mid-, and long-term information necessary to fully understand complex surgical procedures. To address these issues, we propose Multi-Scale Transformers for Surgical Phase Recognition (MuST), a novel Transformer-based approach that combines a Multi-Term Frame encoder with a Temporal Consistency Module to capture information across multiple temporal scales of a surgical video. Our Multi-Term Frame Encoder computes interdependencies across a hierarchy of temporal scales by sampling sequences at increasing strides around the frame of interest. Furthermore, we employ a long-term Transformer encoder over the frame embeddings to further enhance long-term reasoning. MuST achieves higher performance than previous state-of-the-art methods on three different public benchmarks.

arxiv情報

著者 Alejandra Pérez,Santiago Rodríguez,Nicolás Ayobi,Nicolás Aparicio,Eugénie Dessevres,Pablo Arbeláez
発行日 2024-07-24 15:38:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク