BodySLAM: A Generalized Monocular Visual SLAM Framework for Surgical Applications

要約

内視鏡手術は 2 次元のビューに依存しているため、外科医にとっては深さの認識と器具の操作が課題となっています。
単眼視覚同時位置特定およびマッピング (MVSLAM) は有望なソリューションとして浮上していますが、内視鏡処置での実装は、単眼カメラの使用や走行距離測定センサーの欠如などのハードウェアの制限により、重大な課題に直面しています。
この研究では、3 つの主要なコンポーネントを通じてこれらの課題に対処する堅牢な深層学習ベースの MVSLAM アプローチである BodySLAM を紹介します。CycleVO、新しい教師なし単眼姿勢推定モジュール。
単眼奥行き推定のための最先端の Zoe アーキテクチャの統合。
一貫した手術マップを作成する 3D 再構成モジュール。
このアプローチは、腹腔鏡検査、胃内視鏡検査、結腸内視鏡検査のシナリオにわたる 3 つの公的に利用可能なデータセット (Hamlyn、EndoSLAM、および SCARED) を使用して厳密に評価され、4 つの最先端の方法に対してベンチマークが行われます。
結果は、CycleVO が、堅牢な一般化機能を維持しながら、姿勢推定方法の中で最も短い推論時間で競争力のあるパフォーマンスを示したのに対し、Zoe は、内視鏡検査における深度推定に関して既存のアルゴリズムを大幅に上回ったことを示しています。
BodySLAM のさまざまな内視鏡シナリオにわたる強力なパフォーマンスは、内視鏡アプリケーションの実行可能な MVSLAM ソリューションとしての可能性を示しています。

要約(オリジナル)

Endoscopic surgery relies on two-dimensional views, posing challenges for surgeons in depth perception and instrument manipulation. While Monocular Visual Simultaneous Localization and Mapping (MVSLAM) has emerged as a promising solution, its implementation in endoscopic procedures faces significant challenges due to hardware limitations, such as the use of a monocular camera and the absence of odometry sensors. This study presents BodySLAM, a robust deep learning-based MVSLAM approach that addresses these challenges through three key components: CycleVO, a novel unsupervised monocular pose estimation module; the integration of the state-of-the-art Zoe architecture for monocular depth estimation; and a 3D reconstruction module creating a coherent surgical map. The approach is rigorously evaluated using three publicly available datasets (Hamlyn, EndoSLAM, and SCARED) spanning laparoscopy, gastroscopy, and colonoscopy scenarios, and benchmarked against four state-of-the-art methods. Results demonstrate that CycleVO exhibited competitive performance with the lowest inference time among pose estimation methods, while maintaining robust generalization capabilities, whereas Zoe significantly outperformed existing algorithms for depth estimation in endoscopy. BodySLAM’s strong performance across diverse endoscopic scenarios demonstrates its potential as a viable MVSLAM solution for endoscopic applications.

arxiv情報

著者 G. Manni,C. Lauretti,F. Prata,R. Papalia,L. Zollo,P. Soda
発行日 2024-11-04 12:19:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク