要約
単眼内視鏡ビデオからの同時位置特定とマッピング (SLAM) により、自律ナビゲーション、未調査領域への誘導、および 3D 視覚化が可能になり、外科医の内視鏡体験と患者の転帰を大幅に向上させることができます。
既存の高密度 SLAM アルゴリズムは、多くの場合、遠方の静的な照明とテクスチャ表面を想定しており、フォトメトリック バンドル調整と呼ばれるフォトメトリック レンダリング損失を最小限に抑えることによって、シーン ジオメトリとカメラ パラメーターの最適化を交互に行います。
ただし、内視鏡環境では、同じ場所に配置された光と表面の非常に近くを移動するカメラ、テクスチャのない表面、および粘液層による強い鏡面反射により、動的な近接場照明が発生します。
これらの近接場照明効果を考慮しない場合、内視鏡ビデオに適用した場合、屋内/屋外シーンからの既存の SLAM アルゴリズムのパフォーマンスが大幅に低下する可能性があります。
この問題を軽減するために、撮影された画像の強度の変化が一致するように、測光バンドル調整損失とともに交互に最適化することもできる新しい近接場照明バンドル調整損失 $(L_{NFL-BA})$ を導入します。
サーフェスと、同じ場所にあるライトおよびカメラの間の相対的な距離と方向。
3D ガウス表面表現に対する一般的な NFL-BA 損失関数を導出し、$L_{NFL-BA}$ を追加すると、2 つの最先端の 3DGS-SLAM システム、MonoGS (
C3VD 内視鏡検査では、追跡が 35% 改善、予測深度マップによるマッピングが 48% 改善)、EndoGSLAM (追跡が 22% 改善、予測深度マップによるマッピングがわずかに改善)
コロンのデータセット。
プロジェクト ページは https://asdunnbe.github.io/NFL-BA/ から入手できます。
要約(オリジナル)
Simultaneous Localization And Mapping (SLAM) from a monocular endoscopy video can enable autonomous navigation, guidance to unsurveyed regions, and 3D visualizations, which can significantly improve endoscopy experience for surgeons and patient outcomes. Existing dense SLAM algorithms often assume distant and static lighting and textured surfaces, and alternate between optimizing scene geometry and camera parameters by minimizing a photometric rendering loss, often called Photometric Bundle Adjustment. However, endoscopic environments exhibit dynamic near-field lighting due to the co-located light and camera moving extremely close to the surface, textureless surfaces, and strong specular reflections due to mucus layers. When not considered, these near-field lighting effects can cause significant performance reductions for existing SLAM algorithms from indoor/outdoor scenes when applied to endoscopy videos. To mitigate this problem, we introduce a new Near-Field Lighting Bundle Adjustment Loss $(L_{NFL-BA})$ that can also be alternatingly optimized, along with the Photometric Bundle Adjustment loss, such that the captured images’ intensity variations match the relative distance and orientation between the surface and the co-located light and camera. We derive a general NFL-BA loss function for 3D Gaussian surface representations and demonstrate that adding $L_{NFL-BA}$ can significantly improve the tracking and mapping performance of two state-of-the-art 3DGS-SLAM systems, MonoGS (35% improvement in tracking, 48% improvement in mapping with predicted depth maps) and EndoGSLAM (22% improvement in tracking, marginal improvement in mapping with predicted depths), on the C3VD endoscopy dataset for colons. The project page is available at https://asdunnbe.github.io/NFL-BA/
arxiv情報
著者 | Andrea Dunn Beltran,Daniel Rho,Marc Niethammer,Roni Sengupta |
発行日 | 2024-12-17 18:54:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google