Gamba: Marry Gaussian Splatting with Mamba for single view 3D reconstruction

要約

自動化された 3D コンテンツ作成パイプラインに対する需要が高まる中、私たちは 1 つの画像から 3D アセットを効率的に再構築するという課題に取り組んでいます。
以前の手法は主にスコア蒸留サンプリング (SDS) とニューラル ラディアンス フィールド (NeRF) に依存していました。
これらのアプローチは大きな成功を収めていますが、長時間にわたる最適化と大量のメモリ使用量のため、実際的な制限に直面しています。
このレポートでは、単一ビュー画像からのエンドツーエンドの償却 3D 再構成モデ​​ルである Gamba を紹介し、次の 2 つの主要な洞察を強調します。(1) 3D 表現: 効率的な 3D ガウス スプラッティング プロセスに多数の 3D ガウスを活用します。
(2) バックボーン設計: コンテキスト依存の推論とシーケンス (トークン) 長による線形スケーラビリティを容易にし、かなりの数のガウス分布に対応する Mamba ベースのシーケンシャル ネットワークを導入します。
Gamba には、データの前処理、正則化設計、トレーニング方法論における大幅な進歩が組み込まれています。
実際の世界でスキャンされた OmniObject3D データセットを使用して、既存の最適化ベースおよびフィードフォワード 3D 生成アプローチに対して Gamba を評価しました。
ここで、Gamba は、単一の NVIDIA A100 GPU で約 0.6 秒という驚くべき速度を達成しながら、質的および量的の両方で競争力のある生成能力を実証しています。

要約(オリジナル)

We tackle the challenge of efficiently reconstructing a 3D asset from a single image with growing demands for automated 3D content creation pipelines. Previous methods primarily rely on Score Distillation Sampling (SDS) and Neural Radiance Fields (NeRF). Despite their significant success, these approaches encounter practical limitations due to lengthy optimization and considerable memory usage. In this report, we introduce Gamba, an end-to-end amortized 3D reconstruction model from single-view images, emphasizing two main insights: (1) 3D representation: leveraging a large number of 3D Gaussians for an efficient 3D Gaussian splatting process; (2) Backbone design: introducing a Mamba-based sequential network that facilitates context-dependent reasoning and linear scalability with the sequence (token) length, accommodating a substantial number of Gaussians. Gamba incorporates significant advancements in data preprocessing, regularization design, and training methodologies. We assessed Gamba against existing optimization-based and feed-forward 3D generation approaches using the real-world scanned OmniObject3D dataset. Here, Gamba demonstrates competitive generation capabilities, both qualitatively and quantitatively, while achieving remarkable speed, approximately 0.6 second on a single NVIDIA A100 GPU.

arxiv情報

著者 Qiuhong Shen,Xuanyu Yi,Zike Wu,Pan Zhou,Hanwang Zhang,Shuicheng Yan,Xinchao Wang
発行日 2024-03-27 17:40:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク