Weakly Supervised Temporal Convolutional Networks for Fine-grained Surgical Activity Recognition

要約

ステップと呼ばれるきめ細かな外科的活動の自動認識は、高度な手術中のコンピューター支援にとって困難ではあるが重要なタスクです。
現在の視覚ベースの活動認識方法の開発は、手動で注釈が付けられた大量のデータに大きく依存しています。
このデータは生成が困難で時間がかかり、ドメイン固有の知識が必要です。
この作業では、より少ないステップ注釈付きビデオでステップ認識を学習するための弱い監督として、より粗くて注釈を付けやすいアクティビティラベル、つまりフェーズを使用することを提案します。
弱い監視信号を利用するために、ステップフェーズの依存性損失を導入します。
次に、ResNet-50 バックボーンを備えたシングルステージ テンポラル畳み込みネットワーク (SS-TCN) を採用し、弱いアノテーションが付けられたビデオからエンドツーエンドの方法でトレーニングして、一時的なアクティビティのセグメンテーションと認識を行います。
40 件の腹腔鏡下胃バイパス手術と 50 件の白内障手術を含む公開ベンチマーク CATARACTS からなる大規模なビデオ データセットに対して、提案された方法の有効性を広く評価し、示します。

要約(オリジナル)

Automatic recognition of fine-grained surgical activities, called steps, is a challenging but crucial task for intelligent intra-operative computer assistance. The development of current vision-based activity recognition methods relies heavily on a high volume of manually annotated data. This data is difficult and time-consuming to generate and requires domain-specific knowledge. In this work, we propose to use coarser and easier-to-annotate activity labels, namely phases, as weak supervision to learn step recognition with fewer step annotated videos. We introduce a step-phase dependency loss to exploit the weak supervision signal. We then employ a Single-Stage Temporal Convolutional Network (SS-TCN) with a ResNet-50 backbone, trained in an end-to-end fashion from weakly annotated videos, for temporal activity segmentation and recognition. We extensively evaluate and show the effectiveness of the proposed method on a large video dataset consisting of 40 laparoscopic gastric bypass procedures and the public benchmark CATARACTS containing 50 cataract surgeries.

arxiv情報

著者 Sanat Ramesh,Diego Dall’Alba,Cristians Gonzalez,Tong Yu,Pietro Mascagni,Didier Mutter,Jacques Marescaux,Paolo Fiorini,Nicolas Padoy
発行日 2023-02-21 17:26:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク