Learning How To Robustly Estimate Camera Pose in Endoscopic Videos

要約

タイトル:内視鏡ビデオにおけるカメラポーズの強健性推定の学習方法

要約:
-目的:内視鏡手術の介入支援システムの技術スタックにおいて、手術場面の理解は重要であり、内視鏡姿勢の追跡はその鍵となる。
-しかし、照明条件、変形組織、臓器の呼吸運動などの理由で、内視鏡姿勢の追跡は依然として課題が残る。
-方法:私たちは、深さと光学フローを推定して、2つの幾何学的損失を最小化するステレオ内視鏡の解決策を提供した。
-最も重要なのは、入力画像のコンテンツに基づいて貢献度をバランスよく分配する2つの学習済みの適応型ピクセル重みマッピングを導入したこと。
-これを行うために、ディープデクラレイティブネットワークをトレーニングして、深層学習の表現力と新しい幾何学ベースの最適化手法の強健性を活用する。
-SCAREDデータセットで検証し、広範な典型的な手術状況を含む新しい実験的データセットであるStereoMISを導入する。
-結果:私たちの方法は平均して最先端の方法を上回り、特に組織変形や呼吸運動が目に見えるような困難なシナリオで優れた性能を発揮した。
-私たちは、提案された重みマッピングが変形する組織などの曖昧な領域のピクセルの貢献度を減衰させることを観察した。
-結論:私たちは、内視鏡手術の難しい場面でカメラの姿勢を強健に推定する解決策の有効性を証明した。
-私たちの貢献は、同時位置決めおよびマッピング(SLAM)や3D復元などの関連タスクの改善に使用できるため、内視鏡手術の場面の理解を進めることができる。

要約(オリジナル)

Purpose: Surgical scene understanding plays a critical role in the technology stack of tomorrow’s intervention-assisting systems in endoscopic surgeries. For this, tracking the endoscope pose is a key component, but remains challenging due to illumination conditions, deforming tissues and the breathing motion of organs. Method: We propose a solution for stereo endoscopes that estimates depth and optical flow to minimize two geometric losses for camera pose estimation. Most importantly, we introduce two learned adaptive per-pixel weight mappings that balance contributions according to the input image content. To do so, we train a Deep Declarative Network to take advantage of the expressiveness of deep-learning and the robustness of a novel geometric-based optimization approach. We validate our approach on the publicly available SCARED dataset and introduce a new in-vivo dataset, StereoMIS, which includes a wider spectrum of typically observed surgical settings. Results: Our method outperforms state-of-the-art methods on average and more importantly, in difficult scenarios where tissue deformations and breathing motion are visible. We observed that our proposed weight mappings attenuate the contribution of pixels on ambiguous regions of the images, such as deforming tissues. Conclusion: We demonstrate the effectiveness of our solution to robustly estimate the camera pose in challenging endoscopic surgical scenes. Our contributions can be used to improve related tasks like simultaneous localization and mapping (SLAM) or 3D reconstruction, therefore advancing surgical scene understanding in minimally-invasive surgery.

arxiv情報

著者 Michel Hayoz,Christopher Hahne,Mathias Gallardo,Daniel Candinas,Thomas Kurmann,Maximilian Allan,Raphael Sznitman
発行日 2023-04-17 07:05:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク