Bimodal Camera Pose Prediction for Endoscopy

要約

画像から内視鏡シーンの 3D 構造を推定することは非常に困難です。
変形やビュー依存の照明に加えて、結腸のような管状構造には、自己閉塞性と反復的な解剖学的構造に起因する問題が存在します。
この論文では、結腸内視鏡検査におけるカメラの姿勢推定用の合成データセットである SimCol と、内視鏡の姿勢を予測するために二峰性分布を明示的に学習する新しい方法を提案します。
私たちのデータセットは実際の結腸鏡の動きを再現しており、既存の方法の欠点を浮き彫りにしています。
私たちは、シミュレートされた結腸内視鏡検査からの 18k RGB 画像を、対応する深度とカメラのポーズとともに公開し、Unity でのデータ生成環境を公開しています。
私たちはさまざまなカメラ姿勢予測方法を評価し、データに基づいてトレーニングすると、それらが実際の結腸内視鏡シーケンスに一般化され、私たちの二峰性アプローチが以前の単峰性研究よりも優れていることを実証しました。

要約(オリジナル)

Deducing the 3D structure of endoscopic scenes from images is exceedingly challenging. In addition to deformation and view-dependent lighting, tubular structures like the colon present problems stemming from their self-occluding and repetitive anatomical structure. In this paper, we propose SimCol, a synthetic dataset for camera pose estimation in colonoscopy, and a novel method that explicitly learns a bimodal distribution to predict the endoscope pose. Our dataset replicates real colonoscope motion and highlights the drawbacks of existing methods. We publish 18k RGB images from simulated colonoscopy with corresponding depth and camera poses and make our data generation environment in Unity publicly available. We evaluate different camera pose prediction methods and demonstrate that, when trained on our data, they generalize to real colonoscopy sequences, and our bimodal approach outperforms prior unimodal work.

arxiv情報

著者 Anita Rau,Binod Bhattarai,Lourdes Agapito,Danail Stoyanov
発行日 2023-12-15 16:08:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク