Multimodal Transformers for Real-Time Surgical Activity Prediction

要約

手術活動のリアルタイムの認識と予測は、ロボット支援手術の安全性と自律性を向上させるための基礎です。
この論文では、運動学的データとビデオ データの短いセグメントに基づいて、手術ジェスチャーと軌道をリアルタイムで認識および予測するためのマルチモーダル トランスフォーマー アーキテクチャについて説明します。
私たちは、さまざまな入力モダリティとその表現を融合することがジェスチャー認識と予測パフォーマンスに及ぼす影響を評価するためにアブレーション研究を実施します。
JHU-ISI Gesture and Skill Assessment Working Set (JIGSAWS) データセットを使用して、提案されたアーキテクチャのエンドツーエンドの評価を実行します。
私たちのモデルは、運動学的な特徴と空間的およびコンテキスト的なビデオ特徴を効果的に融合することにより、ジェスチャー予測の精度が 89.5% で最先端 (SOTA) を上回ります。
計算効率の高いモデルを利用することで、1 秒の入力ウィンドウの処理で 1.1 ~ 1.3 ミリ秒のリアルタイム パフォーマンスを実現します。

要約(オリジナル)

Real-time recognition and prediction of surgical activities are fundamental to advancing safety and autonomy in robot-assisted surgery. This paper presents a multimodal transformer architecture for real-time recognition and prediction of surgical gestures and trajectories based on short segments of kinematic and video data. We conduct an ablation study to evaluate the impact of fusing different input modalities and their representations on gesture recognition and prediction performance. We perform an end-to-end assessment of the proposed architecture using the JHU-ISI Gesture and Skill Assessment Working Set (JIGSAWS) dataset. Our model outperforms the state-of-the-art (SOTA) with 89.5\% accuracy for gesture prediction through effective fusion of kinematic features with spatial and contextual video features. It achieves the real-time performance of 1.1-1.3ms for processing a 1-second input window by relying on a computationally efficient model.

arxiv情報

著者 Keshara Weerasinghe,Seyed Hamid Reza Roodabeh,Kay Hutchinson,Homa Alemzadeh
発行日 2024-03-11 13:23:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク