Think Step by Step: Chain-of-Gesture Prompting for Error Detection in Robotic Surgical Videos

要約

ロボットシステムと外科データサイエンスの大幅な進歩にも関わらず、ロボット支援低侵襲手術 (RMIS) の安全かつ最適な実行を確保することは依然として複雑な課題です。
現在の手術エラー検出方法には 2 つの部分が含まれます。つまり、手術ジェスチャーを識別し、次に各ジェスチャー クリップ内のエラーを検出します。
これらの方法では、手術ビデオに固有の豊富な文脈情報や意味論的な情報がほとんど考慮されず、正確なジェスチャ識別に依存するためパフォーマンスが制限されます。
このレターは、自然言語処理における思考連鎖プロンプトを動機として、手術ビデオからのコンテキスト情報を活用した、斬新でリアルタイムのエンドツーエンドエラー検出フレームワークである思考連鎖 (COG) プロンプティングを紹介します。
これには、熟練した外科医の意思決定プロセスを模倣するように設計された 2 つの推論モジュールが含まれます。
具体的には、最初にジェスチャ視覚推論モジュールを設計します。これは、ジェスチャ プロンプトにトランスフォーマーとアテンション アーキテクチャを利用します。2 番目のマルチスケール時間推論モジュールは、時間的プロンプトに低速パスと高速パスの両方を備えた多段階の時間畳み込みネットワークを採用します。
情報抽出。
私たちは公開ベンチマーク RMIS データセット JIGSAWS でメソッドを広範囲に検証しています。
私たちの手法は、外科活動に固有の推論プロセスをカプセル化しており、各フレームを平均 6.69 ミリ秒で処理しながら、F1 スコアで 4.6%、精度で 4.6%、Jaccard インデックスで 5.9% も最先端のパフォーマンスを上回ります。
これは、RMIS 処置と外科教育の安全性と有効性を高める上での私たちのアプローチの大きな可能性を実証しています。
コードが利用可能になります。

要約(オリジナル)

Despite significant advancements in robotic systems and surgical data science, ensuring safe and optimal execution in robot-assisted minimally invasive surgery (RMIS) remains a complex challenge. Current surgical error detection methods involve two parts: identifying surgical gestures and then detecting errors within each gesture clip. These methods seldom consider the rich contextual and semantic information inherent in surgical videos, limiting their performance due to reliance on accurate gesture identification. Motivated by the chain-of-thought prompting in natural language processing, this letter presents a novel and real-time end-to-end error detection framework, Chain-of-Thought (COG) prompting, leveraging contextual information from surgical videos. This encompasses two reasoning modules designed to mimic the decision-making processes of expert surgeons. Concretely, we first design a Gestural-Visual Reasoning module, which utilizes transformer and attention architectures for gesture prompting, while the second, a Multi-Scale Temporal Reasoning module, employs a multi-stage temporal convolutional network with both slow and fast paths for temporal information extraction. We extensively validate our method on the public benchmark RMIS dataset JIGSAWS. Our method encapsulates the reasoning processes inherent to surgical activities enabling it to outperform the state-of-the-art by 4.6% in F1 score, 4.6% in Accuracy, and 5.9% in Jaccard index while processing each frame in 6.69 milliseconds on average, demonstrating the great potential of our approach in enhancing the safety and efficacy of RMIS procedures and surgical education. The code will be available.

arxiv情報

著者 Zhimin Shao,Jialang Xu,Danail Stoyanov,Evangelos B. Mazomenos,Yueming Jin
発行日 2024-06-27 14:43:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク