CudaSIFT-SLAM: multiple-map visual SLAM for full procedure mapping in real human endoscopy

要約

単眼視覚同時位置特定およびマッピング (V-SLAM) は、現在、モバイル ロボット工学および拡張現実において堅牢なパフォーマンスを発揮する、かけがえのないツールです。
しかし、人間の結腸内視鏡検査では、閉塞、ぼやけ、光の変化、質感の欠如、変形、ウォータージェットやツールの相互作用などの恐るべき課題が生じ、その結果、追跡損失が非常に頻繁に発生します。
マルチマップ V-SLAM のトップパフォーマンスである ORB-SLAM3 は、ORB の機能と DBoW2 バッグオブ-
言葉。
我々は、完全なヒト結腸内視鏡検査をリアルタイムで処理できる初の V-SLAM システムである CudaSIFT-SLAM を紹介します。
ORB-SLAM3 の制限を克服するために、ORB 機能の代わりに SIFT を使用し、DBoW2 ダイレクト インデックスをより計算量の多いブルート フォース マッチングに置き換え、再配置とマップのマージに間に合うように分離されたイメージを正常にマッチングできるようにします。
リアルタイム パフォーマンスは、SIFT 抽出とブルート フォース マッチングのための GPU 実装である CudaSIFT のおかげで実現されます。
C3VD ファントム結腸データセットと、Endomapper データセットからの完全な本物の結腸内視鏡検査でシステムのベンチマークを行い、サブマップを結合して再配置し、大幅に長いサブマップを取得する機能を実証しました。
私たちのシステムは、C3VD データセット内のフレームの 88 % をリアルタイムでマッピングすることに成功しました。
実際のスクリーニング結腸内視鏡検査では、閉塞したフレームやぼやけたフレームの発生率がはるかに高いにもかかわらず、マッピング カバレージは慎重に探索された領域で 53 %、全シーケンスで 38 % であり、ORB-SLAM3 と比較して 70 % 向上しています。

要約(オリジナル)

Monocular visual simultaneous localization and mapping (V-SLAM) is nowadays an irreplaceable tool in mobile robotics and augmented reality, where it performs robustly. However, human colonoscopies pose formidable challenges like occlusions, blur, light changes, lack of texture, deformation, water jets or tool interaction, which result in very frequent tracking losses. ORB-SLAM3, the top performing multiple-map V-SLAM, is unable to recover from them by merging sub-maps or relocalizing the camera, due to the poor performance of its place recognition algorithm based on ORB features and DBoW2 bag-of-words. We present CudaSIFT-SLAM, the first V-SLAM system able to process complete human colonoscopies in real-time. To overcome the limitations of ORB-SLAM3, we use SIFT instead of ORB features and replace the DBoW2 direct index with the more computationally demanding brute-force matching, being able to successfully match images separated in time for relocation and map merging. Real-time performance is achieved thanks to CudaSIFT, a GPU implementation for SIFT extraction and brute-force matching. We benchmark our system in the C3VD phantom colon dataset, and in a full real colonoscopy from the Endomapper dataset, demonstrating the capabilities to merge sub-maps and relocate in them, obtaining significantly longer sub-maps. Our system successfully maps in real-time 88 % of the frames in the C3VD dataset. In a real screening colonoscopy, despite the much higher prevalence of occluded and blurred frames, the mapping coverage is 53 % in carefully explored areas and 38 % in the full sequence, a 70 % improvement over ORB-SLAM3.

arxiv情報

著者 Richard Elvira,Juan D. Tardós,José M. M. Montiel
発行日 2024-05-27 08:26:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO, I.4.9 パーマリンク