SF-TMN: SlowFast Temporal Modeling Network for Surgical Phase Recognition

要約

自動手術段階認識は、外科教育用のビデオベース評価 (VBA) システムをサポートする重要なテクノロジーの 1 つです。
時間情報の利用は手術段階の認識にとって非常に重要であるため、さまざまな最近のアプローチがフレームレベルの特徴を抽出して完全なビデオ時間モデリングを実行しています。
より良い時間モデリングのために、フレームレベルのフルビデオ時間モデリングを実現するだけでなく、セグメントレベルのフルビデオ時間モデリングも実現できる手術位相認識用のSlowFast Temporal Modeling Network (SF-TMN)を提案します。
ターゲット データセットで事前トレーニングされた特徴抽出ネットワークを採用し、SF-TMN のトレーニング データとしてビデオ フレームから特徴を抽出します。
SF-TMN のスロー パスは、フレーム時間モデリングにすべてのフレーム機能を利用します。
SF-TMN の高速パスは、セグメント時間モデリングのフレーム特徴から要約されたセグメント レベルの特徴を利用します。
提案されたパラダイムは、時間モデリング ネットワークの選択に関して柔軟です。
私たちは、時間モデリング ネットワークとして MS-TCN および ASFormer モデルを調査し、低速パスと高速パスの複数の組み合わせ戦略を実験します。
我々は、Cholec80 手術段階認識タスクで SF-TMN を評価し、SF-TMN が考慮されたすべての指標で最先端の結果を達成できることを実証します。
ASFormer バックボーンを備えた SF-TMN は、最先端の Not End-to-End (TCN) 方式よりも精度で 2.6%、Jaccard スコアで 7.4% 優れています。
また、50salads、GTEA、Breakfast などのアクション セグメンテーション データセットで SF-TMN を評価し、最先端の結果を達成しました。
結果の改善は、時間的リファインメント段階で出力をリファインすることによってフレームレベルとセグメントレベルの両方からの時間的情報を組み合わせることが、手術フェーズの時間的モデリングに有益であることを示しています。

要約(オリジナル)

Automatic surgical phase recognition is one of the key technologies to support Video-Based Assessment (VBA) systems for surgical education. Utilizing temporal information is crucial for surgical phase recognition, hence various recent approaches extract frame-level features to conduct full video temporal modeling. For better temporal modeling, we propose SlowFast Temporal Modeling Network (SF-TMN) for surgical phase recognition that can not only achieve frame-level full video temporal modeling but also achieve segment-level full video temporal modeling. We employ a feature extraction network, pre-trained on the target dataset, to extract features from video frames as the training data for SF-TMN. The Slow Path in SF-TMN utilizes all frame features for frame temporal modeling. The Fast Path in SF-TMN utilizes segment-level features summarized from frame features for segment temporal modeling. The proposed paradigm is flexible regarding the choice of temporal modeling networks. We explore MS-TCN and ASFormer models as temporal modeling networks and experiment with multiple combination strategies for Slow and Fast Paths. We evaluate SF-TMN on Cholec80 surgical phase recognition task and demonstrate that SF-TMN can achieve state-of-the-art results on all considered metrics. SF-TMN with ASFormer backbone outperforms the state-of-the-art Not End-to-End(TCN) method by 2.6% in accuracy and 7.4% in the Jaccard score. We also evaluate SF-TMN on action segmentation datasets including 50salads, GTEA, and Breakfast, and achieve state-of-the-art results. The improvement in the results shows that combining temporal information from both frame level and segment level by refining outputs with temporal refinement stages is beneficial for the temporal modeling of surgical phases.

arxiv情報

著者 Bokai Zhang,Mohammad Hasan Sarhan,Bharti Goel,Svetlana Petculescu,Amer Ghanem
発行日 2023-06-15 05:04:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク