MVGamba: Unify 3D Content Generation as State Space Sequence Modeling

要約

最近の 3D 大規模再構成モデ​​ル (LRM) は、マルチビュー拡散モデルとスケーラブルなマルチビュー再構成器を統合することにより、高品質の 3D コンテンツを数秒以内に生成できます。
現在の作品では、視覚的な品質とレンダリング効率を向上させるために、3D 表現として 3D ガウス スプラッティングをさらに活用しています。
しかし、既存のガウス再構成モデ​​ルには、マルチビューの不一致やテクスチャのぼやけが発生することが多いことが観察されています。
これは、強力だが計算量の多いアーキテクチャ (トランスフォーマーなど) の採用を優先して、マルチビュー情報の伝播が妥協したためであると考えられます。
この問題に対処するために、RNN のような状態空間モデル (SSM) に基づくマルチビュー ガウス再構成器を特徴とする一般的で軽量のガウス再構成モデ​​ルである MVGamba を導入します。
私たちのガウス再構成器は、線形複雑さによる詳細モデリングのための長いガウス シーケンスを生成しながら、クロスビュー自己洗練のためのマルチビュー情報を含む因果コンテキストを伝播します。
MVGamba は、既製のマルチビュー拡散モデルを統合し、単一の画像、まばらな画像、またはテキスト プロンプトからの 3D 生成タスクを統合します。
広範な実験により、MVGamba はすべての 3D コンテンツ生成シナリオにおいて、わずか $0.1\times$ のモデル サイズで最先端のベースラインを上回るパフォーマンスを発揮することが実証されました。

要約(オリジナル)

Recent 3D large reconstruction models (LRMs) can generate high-quality 3D content in sub-seconds by integrating multi-view diffusion models with scalable multi-view reconstructors. Current works further leverage 3D Gaussian Splatting as 3D representation for improved visual quality and rendering efficiency. However, we observe that existing Gaussian reconstruction models often suffer from multi-view inconsistency and blurred textures. We attribute this to the compromise of multi-view information propagation in favor of adopting powerful yet computationally intensive architectures (\eg, Transformers). To address this issue, we introduce MVGamba, a general and lightweight Gaussian reconstruction model featuring a multi-view Gaussian reconstructor based on the RNN-like State Space Model (SSM). Our Gaussian reconstructor propagates causal context containing multi-view information for cross-view self-refinement while generating a long sequence of Gaussians for fine-detail modeling with linear complexity. With off-the-shelf multi-view diffusion models integrated, MVGamba unifies 3D generation tasks from a single image, sparse images, or text prompts. Extensive experiments demonstrate that MVGamba outperforms state-of-the-art baselines in all 3D content generation scenarios with approximately only $0.1\times$ of the model size.

arxiv情報

著者 Xuanyu Yi,Zike Wu,Qiuhong Shen,Qingshan Xu,Pan Zhou,Joo-Hwee Lim,Shuicheng Yan,Xinchao Wang,Hanwang Zhang
発行日 2024-06-10 15:26:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク