要約
ラディアンスフィールド法は、フォトリアリスティックな斬新なビュー合成とジオメトリ再構成を実現してきた。しかし、それらは主にシーン毎の最適化や小さなベースラインの設定に適用されている。最近のいくつかの研究では、変換器を利用した大きなベースラインでのフィードフォワード再構成が研究されているが、それらはすべて標準的な大域的注意メカニズムで動作するため、3D再構成の局所的性質を無視している。我々は、トランスフォーマ層における局所的推論と大域的推論を統合し、品質向上と収束の高速化をもたらす手法を提案する。我々のモデルはシーンをガウスボリュームとして表現し、これを効率的なフィードフォワード再構成のための画像エンコーダとグループアテンションレイヤーと組み合わせる。実験結果は、4つのGPUで2日間訓練した我々のモデルが、360°の輝度フィールドの再構成において高い忠実性を示し、ゼロショットテストや領域外テストに対して頑健であることを示している。
要約(オリジナル)
Radiance field methods have achieved photorealistic novel view synthesis and geometry reconstruction. But they are mostly applied in per-scene optimization or small-baseline settings. While several recent works investigate feed-forward reconstruction with large baselines by utilizing transformers, they all operate with a standard global attention mechanism and hence ignore the local nature of 3D reconstruction. We propose a method that unifies local and global reasoning in transformer layers, resulting in improved quality and faster convergence. Our model represents scenes as Gaussian Volumes and combines this with an image encoder and Group Attention Layers for efficient feed-forward reconstruction. Experimental results demonstrate that our model, trained for two days on four GPUs, demonstrates high fidelity in reconstructing 360° radiance fields, and robustness to zero-shot and out-of-domain testing.
arxiv情報
著者 | Anpei Chen,Haofei Xu,Stefano Esposito,Siyu Tang,Andreas Geiger |
発行日 | 2024-07-05 17:59:58+00:00 |
arxivサイト | arxiv_id(pdf) |