要約
Neural Radiance Fields (NeRF) は、3D シーン表現にマルチビュー画像を使用し、優れたパフォーマンスを発揮します。
マルチカメラ システムは、マルチビュー画像の主要なソースの 1 つとして、固有パラメータの変化やポーズの頻繁な変更などの課題に直面します。
これまでの NeRF ベースの手法のほとんどは、固有のカメラを前提としており、マルチカメラのシナリオをほとんど考慮していませんでした。
さらに、内部パラメータと外部パラメータを最適化できる一部の NeRF メソッドは、これらのパラメータの初期化が不十分な場合、最適解に達しない可能性が依然として残ります。
この論文では、NeRF と並行して内部パラメータと外部パラメータの両方を共同最適化できる手法である MC-NeRF を提案します。
この方法は、独立したカメラ パラメータに対応する各画像もサポートします。
まず、内部パラメータと外部パラメータの間の結合最適化から生じる結合問題と縮退ケースに取り組みます。
第二に、提案されたソリューションに基づいて、キャリブレーションオブジェクトの設計を含む、マルチカメラシステム用の効率的なキャリブレーション画像取得スキームを紹介します。
最後に、レンダリング ネットワークとともに、内部パラメータと外部パラメータの推定を可能にするトレーニング シーケンスを備えたエンドツーエンド ネットワークを紹介します。
さらに、既存のデータセットのほとんどが独自のカメラ用に設計されていることを認識し、実際のマルチカメラ画像取得システムを構築し、シミュレートされたデータと実際にキャプチャされた画像の両方を含む、対応する新しいデータセットを作成します。
実験により、各画像が異なるカメラパラメータに対応する場合のこの方法の有効性が確認されます。
具体的には、実世界のシステムでそれぞれ異なる固有パラメータと外部パラメータを持つマルチカメラを使用して、初期ポーズを提供せずに 3D シーン表現を実現します。
要約(オリジナル)
Neural Radiance Fields (NeRF) use multi-view images for 3D scene representation, demonstrating remarkable performance. As one of the primary sources of multi-view images, multi-camera systems encounter challenges such as varying intrinsic parameters and frequent pose changes. Most previous NeRF-based methods assume a unique camera and rarely consider multi-camera scenarios. Besides, some NeRF methods that can optimize intrinsic and extrinsic parameters still remain susceptible to suboptimal solutions when these parameters are poor initialized. In this paper, we propose MC-NeRF, a method that enables joint optimization of both intrinsic and extrinsic parameters alongside NeRF. The method also supports each image corresponding to independent camera parameters. First, we tackle coupling issue and the degenerate case that arise from the joint optimization between intrinsic and extrinsic parameters. Second, based on the proposed solutions, we introduce an efficient calibration image acquisition scheme for multi-camera systems, including the design of calibration object. Finally, we present an end-to-end network with training sequence that enables the estimation of intrinsic and extrinsic parameters, along with the rendering network. Furthermore, recognizing that most existing datasets are designed for a unique camera, we construct a real multi-camera image acquisition system and create a corresponding new dataset, which includes both simulated data and real-world captured images. Experiments confirm the effectiveness of our method when each image corresponds to different camera parameters. Specifically, we use multi-cameras, each with different intrinsic and extrinsic parameters in real-world system, to achieve 3D scene representation without providing initial poses.
arxiv情報
著者 | Yu Gao,Lutong Su,Hao Liang,Yufeng Yue,Yi Yang,Mengyin Fu |
発行日 | 2024-12-06 14:53:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google