Surgical Temporal Action-aware Network with Sequence Regularization for Phase Recognition

要約

手術室で外科医を支援するには、コンピューター支援手術システムの開発において手術段階認識が不可欠であり、これには手術ビデオの包括的な理解が必要です。
既存の研究は大きな進歩を遂げましたが、改善の価値がある 2 つの重大な制限がまだあります。
まず、リソース消費の妥協により、フレームごとの視覚的特徴が 2D ネットワークによって抽出され、手術行為の空間的および時間的知識が無視されるため、その後の位相予測のためのフレーム間モデリングが妨げられます。
第 2 に、これらの研究は位相予測を最適化するためにワンホット位相ラベルを使用した通常の分類損失を利用するだけであり、不適切な監督下では手術ビデオを完全に調査することができません。
これら 2 つの制限を克服するために、入力ビデオから手術段階をより正確に認識するために、STAR-Net と呼ばれるシーケンス正則化を備えた外科時間アクション認識ネットワークを提案します。
具体的には、2D ネットワークを犠牲にして、視覚的特徴と外科的行為の空間的および時間的知識を統合する、効率的なマルチスケール外科的時間的行為 (MS-STA) モジュールを提案します。
さらに、より小さな容量の補助分類器のシーケンスガイダンスによってSTAR-Netのトレーニングを容易にする二重分類器シーケンス正則化(DSR)を考案しました。
MS-STA および DSR を備えた当社の STAR-Net は、効果的な規則化により手術動作の視覚的特徴を活用することができ、それによって手術段階認識の優れたパフォーマンスにつながります。
大規模な胃切除手術データセットと公開 Cholec80 ベンチマークに関する広範な実験により、当社の STAR-Net が最先端の手術段階認識を大幅に上回ることが証明されました。

要約(オリジナル)

To assist surgeons in the operating theatre, surgical phase recognition is critical for developing computer-assisted surgical systems, which requires comprehensive understanding of surgical videos. Although existing studies made great progress, there are still two significant limitations worthy of improvement. First, due to the compromise of resource consumption, frame-wise visual features are extracted by 2D networks and disregard spatial and temporal knowledge of surgical actions, which hinders subsequent inter-frame modeling for phase prediction. Second, these works simply utilize ordinary classification loss with one-hot phase labels to optimize the phase predictions, and cannot fully explore surgical videos under inadequate supervision. To overcome these two limitations, we propose a Surgical Temporal Action-aware Network with sequence Regularization, named STAR-Net, to recognize surgical phases more accurately from input videos. Specifically, we propose an efficient multi-scale surgical temporal action (MS-STA) module, which integrates visual features with spatial and temporal knowledge of surgical actions at the cost of 2D networks. Moreover, we devise the dual-classifier sequence regularization (DSR) to facilitate the training of STAR-Net by the sequence guidance of an auxiliary classifier with a smaller capacity. Our STAR-Net with MS-STA and DSR can exploit visual features of surgical actions with effective regularization, thereby leading to the superior performance of surgical phase recognition. Extensive experiments on a large-scale gastrectomy surgery dataset and the public Cholec80 benchmark prove that our STAR-Net significantly outperforms state-of-the-arts of surgical phase recognition.

arxiv情報

著者 Zhen Chen,Yuhao Zhai,Jun Zhang,Jinqiao Wang
発行日 2023-11-22 02:15:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク