要約
ロボット支援低侵襲手術(RMIS)における外科的ツールの正確なポーズ推定は、外科的航法とロボット制御に不可欠です。
従来のマーカーベースの方法は精度を提供しますが、閉塞、反射、ツール固有の設計で課題に直面しています。
同様に、監視された学習方法では、注釈付きデータセットに関する広範なトレーニングが必要であり、新しいツールへの適応性を制限します。
他のドメインでの成功にもかかわらず、ゼロショットポーズ推定モデルは、手術器具のポーズ推定のためにRMIで未開拓のままであり、目に見えない外科ツールへの一般化のギャップを生み出します。
このペーパーでは、手術器具の6つの新しい自由度(DOF)ポーズ推定パイプラインを紹介します。
Raft-Stereoメソッドを使用してビジョンベースの深さ推定を組み込むことにより、これらのモデルを進めて、反射的およびテクスチャーのない環境で堅牢な深さ推定を推定しました。
さらに、インスタンスセグメンテーションモジュールを置き換えてSAM-6Dを強化し、微調整されたマスクR-CNNを使用して、あらゆるモデル(SAM)をセグメント化し、オクルドおよび複雑な条件でのセグメンテーションの精度を大幅に向上させました。
広範な検証により、拡張されたSAM-6Dが目に見えない手術器具のゼロショットポーズ推定でFoundationPosesを上回り、RMIでのゼロショットRGB-Dポーズ推定の新しいベンチマークを設定します。
この作業は、目に見えないオブジェクトとパイオニアのポーズ推定の一般化が、RMISでのRGB-Dゼロショットメソッドの適用を強化します。
要約(オリジナル)
Accurate pose estimation of surgical tools in Robot-assisted Minimally Invasive Surgery (RMIS) is essential for surgical navigation and robot control. While traditional marker-based methods offer accuracy, they face challenges with occlusions, reflections, and tool-specific designs. Similarly, supervised learning methods require extensive training on annotated datasets, limiting their adaptability to new tools. Despite their success in other domains, zero-shot pose estimation models remain unexplored in RMIS for pose estimation of surgical instruments, creating a gap in generalising to unseen surgical tools. This paper presents a novel 6 Degrees of Freedom (DoF) pose estimation pipeline for surgical instruments, leveraging state-of-the-art zero-shot RGB-D models like the FoundationPose and SAM-6D. We advanced these models by incorporating vision-based depth estimation using the RAFT-Stereo method, for robust depth estimation in reflective and textureless environments. Additionally, we enhanced SAM-6D by replacing its instance segmentation module, Segment Anything Model (SAM), with a fine-tuned Mask R-CNN, significantly boosting segmentation accuracy in occluded and complex conditions. Extensive validation reveals that our enhanced SAM-6D surpasses FoundationPose in zero-shot pose estimation of unseen surgical instruments, setting a new benchmark for zero-shot RGB-D pose estimation in RMIS. This work enhances the generalisability of pose estimation for unseen objects and pioneers the application of RGB-D zero-shot methods in RMIS.
arxiv情報
著者 | Utsav Rai,Haozheng Xu,Stamatia Giannarou |
発行日 | 2025-05-16 16:58:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google