Leveraging Near-Field Lighting for Monocular Depth Estimation from Endoscopy Videos


まず、ピクセルごとのシェーディング表現を利用する教師ありバリアントと自己教師ありバリアントを備えた 2 つの新しい損失関数を作成します。
次に、同じピクセルごとのシェーディング表現を利用する新しい深度リファインメント ネットワーク (PPSNet) を提案します。
私たちは、臨床データから高品質の深度マップを推定しなが​​ら、C3VD データセットで最先端の結果を達成します。
私たちのコード、事前トレーニングされたモデル、補足資料はプロジェクト ページで見つけることができます: https://ppsnet.github.io/


Monocular depth estimation in endoscopy videos can enable assistive and robotic surgery to obtain better coverage of the organ and detection of various health issues. Despite promising progress on mainstream, natural image depth estimation, techniques perform poorly on endoscopy images due to a lack of strong geometric features and challenging illumination effects. In this paper, we utilize the photometric cues, i.e., the light emitted from an endoscope and reflected by the surface, to improve monocular depth estimation. We first create two novel loss functions with supervised and self-supervised variants that utilize a per-pixel shading representation. We then propose a novel depth refinement network (PPSNet) that leverages the same per-pixel shading representation. Finally, we introduce teacher-student transfer learning to produce better depth maps from both synthetic data with supervision and clinical data with self-supervision. We achieve state-of-the-art results on the C3VD dataset while estimating high-quality depth maps from clinical data. Our code, pre-trained models, and supplementary materials can be found on our project page: https://ppsnet.github.io/


著者 Akshay Paruchuri,Samuel Ehrenstein,Shuxian Wang,Inbar Fried,Stephen M. Pizer,Marc Niethammer,Roni Sengupta
発行日 2024-03-26 17:52:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク