Triplane Meets Gaussian Splatting: Fast and Generalizable Single-View 3D Reconstruction with Transformers

要約

単一画像からの 3D 再構成における最近の進歩は、生成モデルの進化によって推進されています。
これらの中で顕著なのは、スコア蒸留サンプリング (SDS) と 3D ドメインでの拡散モデルの適応に基づく方法です。
これらの技術は進歩しているにもかかわらず、最適化やレンダリングのプロセスが遅いために制限に直面することが多く、トレーニングや最適化に長時間かかることになります。
この論文では、フィードフォワード推論を介して単一画像から 3D モデルを効率的に生成する、単一ビュー再構成のための新しいアプローチを紹介します。
私たちの方法では、ポイント デコーダとトリプレーン デコーダという 2 つのトランスフォーマ ベースのネットワークを利用して、ハイブリッド トリプレーン ガウス中間表現を使用して 3D オブジェクトを再構築します。
このハイブリッド表現はバランスをとっており、暗黙的表現と比較してより速いレンダリング速度を達成すると同時に、明示的表現よりも優れたレンダリング品質を実現します。
ポイント デコーダは、単一の画像から点群を生成するように設計されており、明示的な表現を提供します。これはトリプレーン デコーダによって利用され、各点のガウス特徴をクエリします。
この設計の選択は、非構造的な性質を特徴とする明示的な 3D ガウス属性の直接回帰に関連する課題に対処します。
その後、3D ガウスは MLP によってデコードされ、スプラッティングによる高速レンダリングが可能になります。
どちらのデコーダーも、スケーラブルなトランスフォーマー ベースのアーキテクチャに基づいて構築されており、大規模な 3D データセットで効率的にトレーニングされています。
合成データセットと実世界の画像の両方に対して行われた評価は、私たちの方法がより高い品質を達成するだけでなく、以前の最先端の技術と比較してより高速な実行時間を保証することを示しています。
https://zouzx.github.io/TriplaneGaussian/ のプロジェクト ページをご覧ください。

要約(オリジナル)

Recent advancements in 3D reconstruction from single images have been driven by the evolution of generative models. Prominent among these are methods based on Score Distillation Sampling (SDS) and the adaptation of diffusion models in the 3D domain. Despite their progress, these techniques often face limitations due to slow optimization or rendering processes, leading to extensive training and optimization times. In this paper, we introduce a novel approach for single-view reconstruction that efficiently generates a 3D model from a single image via feed-forward inference. Our method utilizes two transformer-based networks, namely a point decoder and a triplane decoder, to reconstruct 3D objects using a hybrid Triplane-Gaussian intermediate representation. This hybrid representation strikes a balance, achieving a faster rendering speed compared to implicit representations while simultaneously delivering superior rendering quality than explicit representations. The point decoder is designed for generating point clouds from single images, offering an explicit representation which is then utilized by the triplane decoder to query Gaussian features for each point. This design choice addresses the challenges associated with directly regressing explicit 3D Gaussian attributes characterized by their non-structural nature. Subsequently, the 3D Gaussians are decoded by an MLP to enable rapid rendering through splatting. Both decoders are built upon a scalable, transformer-based architecture and have been efficiently trained on large-scale 3D datasets. The evaluations conducted on both synthetic datasets and real-world images demonstrate that our method not only achieves higher quality but also ensures a faster runtime in comparison to previous state-of-the-art techniques. Please see our project page at https://zouzx.github.io/TriplaneGaussian/.

arxiv情報

著者 Zi-Xin Zou,Zhipeng Yu,Yuan-Chen Guo,Yangguang Li,Ding Liang,Yan-Pei Cao,Song-Hai Zhang
発行日 2023-12-14 17:18:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク