Friends Across Time: Multi-Scale Action Segmentation Transformer for Surgical Phase Recognition

要約

自動手術段階認識は、最新の手術室およびオンライン手術ビデオ評価プラットフォームの中核テクノロジーです。
現在の最先端の方法は、空間情報と時間情報の両方を使用して、手術段階認識タスクに取り組んでいます。
この考えに基づいて、オフラインの手術段階認識用のマルチスケール アクション セグメンテーション トランスフォーマー (MS-AST) と、オンラインの手術段階認識用のマルチスケール アクション セグメンテーション因果トランスフォーマー (MS-ASCT) を提案します。
空間特徴抽出には ResNet50 または EfficientNetV2-M を使用します。
当社の MS-AST および MS-ASCT は、マルチスケール時間的セルフ アテンションおよびマルチスケール時間的クロス アテンションを使用して、さまざまなスケールで時間情報をモデル化できます。これにより、フレームとセグメント間の時間的関係の捕捉が強化されます。
我々の方法は、Cholec80 データセット上でオンラインおよびオフラインの手術段階認識においてそれぞれ 95.26% および 96.15% の精度を達成でき、新しい最先端の結果が得られることを実証します。
私たちの方法は、ビデオアクションセグメンテーションドメインの非医療データセットでも最先端の結果を達成できます。

要約(オリジナル)

Automatic surgical phase recognition is a core technology for modern operating rooms and online surgical video assessment platforms. Current state-of-the-art methods use both spatial and temporal information to tackle the surgical phase recognition task. Building on this idea, we propose the Multi-Scale Action Segmentation Transformer (MS-AST) for offline surgical phase recognition and the Multi-Scale Action Segmentation Causal Transformer (MS-ASCT) for online surgical phase recognition. We use ResNet50 or EfficientNetV2-M for spatial feature extraction. Our MS-AST and MS-ASCT can model temporal information at different scales with multi-scale temporal self-attention and multi-scale temporal cross-attention, which enhances the capture of temporal relationships between frames and segments. We demonstrate that our method can achieve 95.26% and 96.15% accuracy on the Cholec80 dataset for online and offline surgical phase recognition, respectively, which achieves new state-of-the-art results. Our method can also achieve state-of-the-art results on non-medical datasets in the video action segmentation domain.

arxiv情報

著者 Bokai Zhang,Jiayuan Meng,Bin Cheng,Dean Biskup,Svetlana Petculescu,Angela Chapman
発行日 2024-01-22 01:34:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク