SurgPLAN: Surgical Phase Localization Network for Phase Recognition


自動手術段階認識が大きく進歩したにもかかわらず、ほとんどの既存の方法には依然として 2 つの問題による制限があります。
第一に、これらの方法では、単純な 2D ネットワークでは各フレームの識別可能な視覚的特徴や動き情報をキャプチャできません。
第 2 に、フレームごとの認識パラダイムでは、位相シェイクと呼ばれる各位相内の予測が不安定になるため、パフォーマンスが低下します。
これら 2 つの課題に対処するために、時間的検出の原理を使用してより正確で安定した手術段階の認識を促進する、SurgPLAN という名前の手術段階位置特定ネットワークを提案します。
具体的には、まず、異なるフレーム サンプリング レートを持つ 2 つのブランチによってマルチスケールの空間的および時間的特徴をキャプチャするための視覚的バックボーンとして機能する Pyramid SlowFast (PSF) アーキテクチャを考案します。
さらに、我々は、時間領域の提案に基づいて位相予測を生成する時間位相ローカリゼーション (TPL) モジュールを提案します。これにより、各手術フェーズ内での正確で一貫した予測が保証されます。
広範な実験により、精度と安定性の両方の点で、フレームごとのアプローチに比べて当社の SurgPLAN の大きな利点が確認されました。


Surgical phase recognition is crucial to providing surgery understanding in smart operating rooms. Despite great progress in automatic surgical phase recognition, most existing methods are still restricted by two problems. First, these methods cannot capture discriminative visual features for each frame and motion information with simple 2D networks. Second, the frame-by-frame recognition paradigm degrades the performance due to unstable predictions within each phase, termed as phase shaking. To address these two challenges, we propose a Surgical Phase LocAlization Network, named SurgPLAN, to facilitate a more accurate and stable surgical phase recognition with the principle of temporal detection. Specifically, we first devise a Pyramid SlowFast (PSF) architecture to serve as the visual backbone to capture multi-scale spatial and temporal features by two branches with different frame sampling rates. Moreover, we propose a Temporal Phase Localization (TPL) module to generate the phase prediction based on temporal region proposals, which ensures accurate and consistent predictions within each surgical phase. Extensive experiments confirm the significant advantages of our SurgPLAN over frame-by-frame approaches in terms of both accuracy and stability.


著者 Xingjian Luo,You Pang,Zhen Chen,Jinlin Wu,Zongmin Zhang,Zhen Lei,Hongbin Liu
発行日 2023-11-16 15:39:01+00:00
arxivサイト arxiv_id(pdf)

カテゴリー: cs.CV, cs.LG パーマリンク