GRM: Large Gaussian Reconstruction Model for Efficient 3D Reconstruction and Generation

要約

スパースビュー画像から 3D アセットを約 0.1 秒で復元できる大規模再構築器 GRM を紹介します。
GRM はフィードフォワード トランスフォーマー ベースのモデルで、マルチビュー情報を効率的に組み込んで入力ピクセルをピクセル位置に合わせたガウスに変換します。これらのガウスは投影されず、シーンを表す高密度に分散された 3D ガウスのセットを作成します。
当社のトランスフォーマー アーキテクチャと 3D ガウスの使用により、スケーラブルで効率的な再構築フレームワークが実現します。
広範な実験結果は、再構成の品質と効率の両方に関して、代替方法よりも私たちの方法が優れていることを示しています。
また、既存のマルチビュー拡散モデルと統合することで、生成タスク、つまりテキストから 3D への変換や画像から 3D への GRM の可能性も紹介します。
私たちのプロジェクトの Web サイトは、https://justimyhxu.github.io/projects/grm/ にあります。

要約(オリジナル)

We introduce GRM, a large-scale reconstructor capable of recovering a 3D asset from sparse-view images in around 0.1s. GRM is a feed-forward transformer-based model that efficiently incorporates multi-view information to translate the input pixels into pixel-aligned Gaussians, which are unprojected to create a set of densely distributed 3D Gaussians representing a scene. Together, our transformer architecture and the use of 3D Gaussians unlock a scalable and efficient reconstruction framework. Extensive experimental results demonstrate the superiority of our method over alternatives regarding both reconstruction quality and efficiency. We also showcase the potential of GRM in generative tasks, i.e., text-to-3D and image-to-3D, by integrating it with existing multi-view diffusion models. Our project website is at: https://justimyhxu.github.io/projects/grm/.

arxiv情報

著者 Yinghao Xu,Zifan Shi,Wang Yifan,Hansheng Chen,Ceyuan Yang,Sida Peng,Yujun Shen,Gordon Wetzstein
発行日 2024-03-21 17:59:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク