要約
高密度 3D 再構築とエゴモーション推定は、自動運転とロボット工学における重要な課題です。
現在導入されている複雑なマルチモーダル システムと比較して、マルチカメラ システムは、よりシンプルで低コストの代替手段を提供します。
ただし、既存のソリューションでは不完全または一貫性のない結果が生成されることが多いため、複雑な動的シーンのカメラベースの 3D 再構成は非常に困難であることが判明しています。
我々は、高密度3D再構成とエゴモーション推定のためのマルチカメラシステムであるR3D3を提案します。
私たちのアプローチは、複数のカメラからの時空間情報を利用する幾何学的推定と単眼の深さの調整を繰り返します。
マルチカメラ特徴相関演算子と高密度バンドル調整演算子を統合し、堅牢な幾何学的深度と姿勢推定値を生成します。
幾何学的深度が信頼できない場合の再構成を改善するため。
移動するオブジェクトや低テクスチャ領域については、深度調整ネットワークを介して学習可能なシーン事前分布を導入します。
この設計により、困難でダイナミックな屋外環境の高密度で一貫した 3D 再構築が可能になることを示します。
その結果、DDAD および NuScenes ベンチマークで最先端の高密度深度予測を実現します。
要約(オリジナル)
Dense 3D reconstruction and ego-motion estimation are key challenges in autonomous driving and robotics. Compared to the complex, multi-modal systems deployed today, multi-camera systems provide a simpler, low-cost alternative. However, camera-based 3D reconstruction of complex dynamic scenes has proven extremely difficult, as existing solutions often produce incomplete or incoherent results. We propose R3D3, a multi-camera system for dense 3D reconstruction and ego-motion estimation. Our approach iterates between geometric estimation that exploits spatial-temporal information from multiple cameras, and monocular depth refinement. We integrate multi-camera feature correlation and dense bundle adjustment operators that yield robust geometric depth and pose estimates. To improve reconstruction where geometric depth is unreliable, e.g. for moving objects or low-textured regions, we introduce learnable scene priors via a depth refinement network. We show that this design enables a dense, consistent 3D reconstruction of challenging, dynamic outdoor environments. Consequently, we achieve state-of-the-art dense depth prediction on the DDAD and NuScenes benchmarks.
arxiv情報
著者 | Aron Schmied,Tobias Fischer,Martin Danelljan,Marc Pollefeys,Fisher Yu |
発行日 | 2023-08-28 17:13:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google