Large Point-to-Gaussian Model for Image-to-3D Generation

要約

最近、画像から 3D へのアプローチにより、大規模な再構成モデ​​ル、特に 3D ガウス再構成モデ​​ルに基づく 3D アセットの生成品質と速度が大幅に向上しました。
既存の大規模な 3D ガウス モデルは 2D 画像を 3D ガウス パラメータに直接マッピングしますが、2D 画像を 3D ガウス表現に回帰するのは 3D 事前分布なしでは困難です。
本稿では、画像から 3D への生成のために、2D 画像を条件とした大規模 3D 拡散モデルから生成された初期点群を入力してガウス パラメータを生成する大規模な Point-to-Gaussian モデルを提案します。
点群はガウス生成の前に初期 3D ジオメトリを提供するため、画像から 3D への生成が大幅に容易になります。
さらに、画像特徴と点群特徴を融合するための \textbf{A}ttention メカニズム、\textbf{P}rojection メカニズム、および \textbf{APP} ブロックと呼ばれる \textbf{P}oint 特徴抽出機能を紹介します。
定性的および定量的実験は、GSO および Objaverse データセットに対する提案されたアプローチの有効性を広範囲に実証し、提案された方法が最先端のパフォーマンスを達成することを示しています。

要約(オリジナル)

Recently, image-to-3D approaches have significantly advanced the generation quality and speed of 3D assets based on large reconstruction models, particularly 3D Gaussian reconstruction models. Existing large 3D Gaussian models directly map 2D image to 3D Gaussian parameters, while regressing 2D image to 3D Gaussian representations is challenging without 3D priors. In this paper, we propose a large Point-to-Gaussian model, that inputs the initial point cloud produced from large 3D diffusion model conditional on 2D image to generate the Gaussian parameters, for image-to-3D generation. The point cloud provides initial 3D geometry prior for Gaussian generation, thus significantly facilitating image-to-3D Generation. Moreover, we present the \textbf{A}ttention mechanism, \textbf{P}rojection mechanism, and \textbf{P}oint feature extractor, dubbed as \textbf{APP} block, for fusing the image features with point cloud features. The qualitative and quantitative experiments extensively demonstrate the effectiveness of the proposed approach on GSO and Objaverse datasets, and show the proposed method achieves state-of-the-art performance.

arxiv情報

著者 Longfei Lu,Huachen Gao,Tao Dai,Yaohua Zha,Zhi Hou,Junta Wu,Shu-Tao Xia
発行日 2024-08-20 15:17:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク