GLSFormer : Gated – Long, Short Sequence Transformer for Step Recognition in Surgical Videos

要約

自動化された手術ステップ認識は、患者の安全性と手術中の意思決定を大幅に向上させることができる重要なタスクです。
手術ステップ認識のための既存の最先端の方法は、空間的および時間的情報の個別の多段階モデリングに依存するか、または共同学習された場合に短距離の時間分解能で動作します。
ただし、時空間特徴と長距離情報の共同モデリングの利点は考慮されていません。
この論文では、フレームレベルのパッチのシーケンスから時空間特徴を直接共同学習するためのビジョントランスフォーマーベースのアプローチを提案します。
私たちの方法には、短期および長期の時空間特徴表現をインテリジェントに組み合わせるゲート時間的注意メカニズムが組み込まれています。
私たちは、Cataract-101 と D99 という 2 つの白内障手術ビデオ データセットに対するアプローチを広範囲に評価し、さまざまな最先端の方法と比較して優れたパフォーマンスを実証しています。
これらの結果は、自動手術ステップ認識に対する我々の提案するアプローチの適合性を検証します。
私たちのコードはhttps://github.com/nisargshah1999/GLSFormerでリリースされています。

要約(オリジナル)

Automated surgical step recognition is an important task that can significantly improve patient safety and decision-making during surgeries. Existing state-of-the-art methods for surgical step recognition either rely on separate, multi-stage modeling of spatial and temporal information or operate on short-range temporal resolution when learned jointly. However, the benefits of joint modeling of spatio-temporal features and long-range information are not taken in account. In this paper, we propose a vision transformer-based approach to jointly learn spatio-temporal features directly from sequence of frame-level patches. Our method incorporates a gated-temporal attention mechanism that intelligently combines short-term and long-term spatio-temporal feature representations. We extensively evaluate our approach on two cataract surgery video datasets, namely Cataract-101 and D99, and demonstrate superior performance compared to various state-of-the-art methods. These results validate the suitability of our proposed approach for automated surgical step recognition. Our code is released at: https://github.com/nisargshah1999/GLSFormer

arxiv情報

著者 Nisarg A. Shah,Shameema Sikder,S. Swaroop Vedula,Vishal M. Patel
発行日 2023-07-20 17:57:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク