GeoLRM: Geometry-Aware Large Reconstruction Model for High-Quality 3D Gaussian Generation

要約

この研究では、GeoLRM (GeoLRM) を導入します。これは、わずか 11 GB の GPU メモリで 512,000 のガウスと 21 の入力イメージを含む高品質のアセットを予測できるアプローチです。
これまでの研究では、3D 構造の固有の疎性が無視され、3D イメージと 2D 画像の間の明示的な幾何学的関係が利用されていませんでした。
これにより、これらの方法は低解像度の表現に制限され、より良い品質を得るために高密度のビューにスケールアップすることが困難になります。
GeoLRM は、3D ポイントを直接処理し、変形可能なクロスアテンション メカニズムを使用して画像の特徴を 3D 表現に効果的に統合する新しい 3D 対応トランスフォーマー構造を組み込むことで、これらの問題に取り組みます。
このソリューションは 2 段階のパイプラインを通じて実装されます。最初に、軽量の提案ネットワークが、ポーズ設定された画像入力から 3D アンカー ポイントのまばらなセットを生成します。
その後、特殊な再構成トランスフォーマーがジオメトリを洗練し、テクスチャの詳細を取得します。
広範な実験結果は、GeoLRM が、特に高密度ビュー入力に対して既存のモデルよりも大幅に優れていることを示しています。
また、3D 生成タスクでのモデルの実用的な適用性も実証し、その多用途性と現実世界のアプリケーションでのより広範な採用の可能性を示します。

要約(オリジナル)

In this work, we introduce the Geometry-Aware Large Reconstruction Model (GeoLRM), an approach which can predict high-quality assets with 512k Gaussians and 21 input images in only 11 GB GPU memory. Previous works neglect the inherent sparsity of 3D structure and do not utilize explicit geometric relationships between 3D and 2D images. This limits these methods to a low-resolution representation and makes it difficult to scale up to the dense views for better quality. GeoLRM tackles these issues by incorporating a novel 3D-aware transformer structure that directly processes 3D points and uses deformable cross-attention mechanisms to effectively integrate image features into 3D representations. We implement this solution through a two-stage pipeline: initially, a lightweight proposal network generates a sparse set of 3D anchor points from the posed image inputs; subsequently, a specialized reconstruction transformer refines the geometry and retrieves textural details. Extensive experimental results demonstrate that GeoLRM significantly outperforms existing models, especially for dense view inputs. We also demonstrate the practical applicability of our model with 3D generation tasks, showcasing its versatility and potential for broader adoption in real-world applications.

arxiv情報

著者 Chubin Zhang,Hongliang Song,Yi Wei,Yu Chen,Jiwen Lu,Yansong Tang
発行日 2024-06-21 17:49:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク