Novel View Synthesis with Neural Radiance Fields for Industrial Robot Applications

要約

Neural Radiance Fields (NeRF) は、3D シーンの再構築に使用される一般的な写真測量ワークフローに革命をもたらす可能性を備え、急速に成長している研究分野となっています。
NeRF は入力として、対応するカメラのポーズと内部の向きを含むマルチビュー画像を必要とします。
一般的な NeRF ワークフローでは、カメラのポーズと内部の向きは、Structure from Motion (SfM) によって事前に推定されます。
しかし、結果として得られる新しいビューの品質は、利用可能な画像の数や分布、関連するカメラのポーズや内部標定の精度などのさまざまなパラメータに依存するため、予測するのが困難です。
さらに、SfM は時間のかかる前処理ステップであり、その品質は画像の内容に大きく依存します。
さらに、SfM のスケーリング係数が未定義であるため、メトリック情報が必要となる後続のステップが妨げられます。
この論文では、産業用ロボット用途における NeRF の可能性を評価します。
私たちは、SfM 前処理の代替案を提案します。産業用ロボットのエンドエフェクターに取り付けられた校正済みのカメラで入力画像をキャプチャし、ロボットの運動学に基づいてメートルスケールで正確なカメラのポーズを決定します。
次に、新しいビューをグラウンド トゥルースと比較し、アンサンブル手法に基づいて内部品質尺度を計算することによって、新しいビューの品質を調査します。
評価を目的として、反射物体、貧弱なテクスチャ、微細構造など、産業用途に特有の再構築に課題をもたらす複数のデータセットを取得します。
ロボットベースの姿勢決定は、要求が厳しくないケースでは SfM と同様の精度に達し、より困難なシナリオでは明らかな利点があることを示します。
最後に、グランドトゥルースが存在しない場合に合成新規ビューの品質を推定するためにアンサンブル法を適用した最初の結果を示します。

要約(オリジナル)

Neural Radiance Fields (NeRFs) have become a rapidly growing research field with the potential to revolutionize typical photogrammetric workflows, such as those used for 3D scene reconstruction. As input, NeRFs require multi-view images with corresponding camera poses as well as the interior orientation. In the typical NeRF workflow, the camera poses and the interior orientation are estimated in advance with Structure from Motion (SfM). But the quality of the resulting novel views, which depends on different parameters such as the number and distribution of available images, as well as the accuracy of the related camera poses and interior orientation, is difficult to predict. In addition, SfM is a time-consuming pre-processing step, and its quality strongly depends on the image content. Furthermore, the undefined scaling factor of SfM hinders subsequent steps in which metric information is required. In this paper, we evaluate the potential of NeRFs for industrial robot applications. We propose an alternative to SfM pre-processing: we capture the input images with a calibrated camera that is attached to the end effector of an industrial robot and determine accurate camera poses with metric scale based on the robot kinematics. We then investigate the quality of the novel views by comparing them to ground truth, and by computing an internal quality measure based on ensemble methods. For evaluation purposes, we acquire multiple datasets that pose challenges for reconstruction typical of industrial applications, like reflective objects, poor texture, and fine structures. We show that the robot-based pose determination reaches similar accuracy as SfM in non-demanding cases, while having clear advantages in more challenging scenarios. Finally, we present first results of applying the ensemble method to estimate the quality of the synthetic novel view in the absence of a ground truth.

arxiv情報

著者 Markus Hillemann,Robert Langendörfer,Max Heiken,Max Mehltretter,Andreas Schenk,Martin Weinmann,Stefan Hinz,Christian Heipke,Markus Ulrich
発行日 2024-05-07 14:22:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク