Leveraging Surgical Activity Grammar for Primary Intention Prediction in Laparoscopy Procedures

要約

外科的処置は本質的に複雑で動的であり、複雑な依存関係とさまざまな実行パスがあります。
主な意図(PI)と呼ばれる重要な行動の背後にある意図の正確な識別は、手順を理解して計画するために重要です。
このペーパーでは、トップダウンの文法構造とボトムアップの視覚的キューを組み合わせることにより、教育ビデオのPI認識を進める新しいフレームワークを紹介します。
文法構造は、外科的処置の豊富なコーパスに基づいており、外科的活動に関する階層的な視点を提供します。
外科的活動文法を利用する文法パーサーは、外科的作用検出器を介して腹腔鏡画像から得られた視覚データを処理し、視覚情報のより正確な解釈を確保します。
ベンチマークデータセットでの実験結果は、この方法が視覚的特徴のみに依存する既存の外科活動検出器を上回ることを示しています。
私たちの研究は、計画と自動化の能力を強化した高度なロボット外科システムを開発するための有望な基盤を提供します。

要約(オリジナル)

Surgical procedures are inherently complex and dynamic, with intricate dependencies and various execution paths. Accurate identification of the intentions behind critical actions, referred to as Primary Intentions (PIs), is crucial to understanding and planning the procedure. This paper presents a novel framework that advances PI recognition in instructional videos by combining top-down grammatical structure with bottom-up visual cues. The grammatical structure is based on a rich corpus of surgical procedures, offering a hierarchical perspective on surgical activities. A grammar parser, utilizing the surgical activity grammar, processes visual data obtained from laparoscopic images through surgical action detectors, ensuring a more precise interpretation of the visual information. Experimental results on the benchmark dataset demonstrate that our method outperforms existing surgical activity detectors that rely solely on visual features. Our research provides a promising foundation for developing advanced robotic surgical systems with enhanced planning and automation capabilities.

arxiv情報

著者 Jie Zhang,Song Zhou,Yiwei Wang,Chidan Wan,Huan Zhao,Xiong Cai,Han Ding
発行日 2025-01-31 02:43:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク