A geometry-aware deep network for depth estimation in monocular endoscopy

要約

タイトル:単眼内視鏡における深度推定のためのジオメトリ認識深層ネットワーク

要約:
– 単眼内視鏡における深度推定は、手術現場での空間認識と3Dナビゲーションにとって重要です。
– 既存の多くの手法は、重要な幾何学的構造の一貫性を無視しているため、性能の低下や3D再構成の歪みが生じます。
– したがって、本研究では、ステップエッジ構造周辺の不確定性をペナルティ化する勾配損失、頻繁に小さな構造に対する感度を明示的に表現する法線損失、グローバルジオメトリ解剖構造を制約するためにサンプルグリッド上で空間情報を広げる幾何学的一貫性損失を提案しています。
– また、反射や照明変化下の解剖構造を捉えた合成RGB-Depthデータセットを作成しました。
– 提案手法は、異なるデータセットと臨床画像で広範に検証され、EndoSLAMデータセットで平均RMSE値0.066(胃)、0.029(小腸)、および0.139(大腸)を達成しました。提案手法の汎化性は、ColonDepthデータセットで平均RMSE値12.604(T1-L1)、9.930(T2-L2)、および13.893(T3-L3)を達成しました。
– 実験結果は、提案手法が以前の最新の競合手法を上回り、より一貫性のある深度マップと合理的な解剖構造を生成していることを示しています。
– 本研究の手法による術中の3D構造知覚の質は、内視鏡ナビゲーションのためのビデオCT登録アルゴリズムの精度要件を満たしています。
– 本研究で使用したデータセットとソースコードは、https://github.com/YYM-SIA/LINGMI-MRで入手できます。

要約(オリジナル)

Monocular depth estimation is critical for endoscopists to perform spatial perception and 3D navigation of surgical sites. However, most of the existing methods ignore the important geometric structural consistency, which inevitably leads to performance degradation and distortion of 3D reconstruction. To address this issue, we introduce a gradient loss to penalize edge fluctuations ambiguous around stepped edge structures and a normal loss to explicitly express the sensitivity to frequently small structures, and propose a geometric consistency loss to spreads the spatial information across the sample grids to constrain the global geometric anatomy structures. In addition, we develop a synthetic RGB-Depth dataset that captures the anatomical structures under reflections and illumination variations. The proposed method is extensively validated across different datasets and clinical images and achieves mean RMSE values of 0.066 (stomach), 0.029 (small intestine), and 0.139 (colon) on the EndoSLAM dataset. The generalizability of the proposed method achieves mean RMSE values of 12.604 (T1-L1), 9.930 (T2-L2), and 13.893 (T3-L3) on the ColonDepth dataset. The experimental results show that our method exceeds previous state-of-the-art competitors and generates more consistent depth maps and reasonable anatomical structures. The quality of intraoperative 3D structure perception from endoscopic videos of the proposed method meets the accuracy requirements of video-CT registration algorithms for endoscopic navigation. The dataset and the source code will be available at https://github.com/YYM-SIA/LINGMI-MR.

arxiv情報

著者 Yongming Yang,Shuwei Shao,Tao Yang,Peng Wang,Zhuo Yang,Chengdong Wu,Hao Liu
発行日 2023-04-20 11:59:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク