Depth-Supervised NeRF for Multi-View RGB-D Operating Room Images

要約

Neural Radiance Fields (NeRF) は、静的カメラでキャプチャされた一連の画像から 3D シーンを再構築するための強力な新しいテクノロジです。
これらの再構成のレンダリングは、手術室 (OR) でのバーチャル プレゼンスに役割を果たすことができます。
トレーニング目的で。
バーチャル プレゼンスの既存のシステムとは対照的に、NeRF はシミュレートされた手術ではなく実際の手術を提供できます。
この作品は、OR でのビュー合成に NeRF を使用する方法を示しています。
深度教師あり NeRF (DS-NeRF) は、4D-OR データセットから膝関節置換手術のビデオで手術野をキャプチャする 3 台または 5 台の同期カメラでトレーニングされます。
アルゴリズムは、手術前と手術中の 5 つの異なる段階で画像のトレーニングと評価が行われます。
定性分析では、手術野の周りを 180 度移動する仮想カメラによって合成されたビューを検査します。
さらに、目に見えないカメラ位置からのビュー合成を、カラー チャネルの PSNR、SSIM、および LPIPS の観点から、推定された深度の MAE およびエラー パーセンテージの観点から、定量的に検査します。
DS-NeRF は、補間されたカメラ位置からも、幾何学的に一貫したビューを生成します。
ビューは、平均 PSNR が 17.8、深度推定誤差が 2.10% の見えないカメラのポーズから生成されます。
ただし、アーティファクトや細部の欠落により、合成されたビューは写真のようにリアルに見えません。
私たちの結果は、OR でのビュー合成に対する NeRF の可能性を示しています。
ビデオ合成やトレーニングの高速化のための NeRF などの最近の開発では、その可能性を最大限に引き出すためにさらなる調査が必要です。

要約(オリジナル)

Neural Radiance Fields (NeRF) is a powerful novel technology for the reconstruction of 3D scenes from a set of images captured by static cameras. Renders of these reconstructions could play a role in virtual presence in the operating room (OR), e.g. for training purposes. In contrast to existing systems for virtual presence, NeRF can provide real instead of simulated surgeries. This work shows how NeRF can be used for view synthesis in the OR. A depth-supervised NeRF (DS-NeRF) is trained with three or five synchronised cameras that capture the surgical field in knee replacement surgery videos from the 4D-OR dataset. The algorithm is trained and evaluated for images in five distinct phases before and during the surgery. With qualitative analysis, we inspect views synthesised by a virtual camera that moves in 180 degrees around the surgical field. Additionally, we quantitatively inspect view synthesis from an unseen camera position in terms of PSNR, SSIM and LPIPS for the colour channels and in terms of MAE and error percentage for the estimated depth. DS-NeRF generates geometrically consistent views, also from interpolated camera positions. Views are generated from an unseen camera pose with an average PSNR of 17.8 and a depth estimation error of 2.10%. However, due to artefacts and missing of fine details, the synthesised views do not look photo-realistic. Our results show the potential of NeRF for view synthesis in the OR. Recent developments, such as NeRF for video synthesis and training speedups, require further exploration to reveal its full potential.

arxiv情報

著者 Beerend G. A. Gerats,Jelmer M. Wolterink,Ivo A. M. J. Broeders
発行日 2022-11-22 17:45:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, I.4.5 パーマリンク