要約
3D コンテンツの作成は、品質と速度の両面で大幅な進歩を遂げています。
現在のフィードフォワード モデルは 3D オブジェクトを数秒で生成できますが、その解像度はトレーニング中に必要な集中的な計算によって制限されます。
このペーパーでは、テキスト プロンプトまたは単一ビュー画像から高解像度 3D モデルを生成するように設計された新しいフレームワークであるラージ マルチビュー ガウス モデル (LGM) を紹介します。
私たちの重要な洞察は次の 2 つです。 1) 3D 表現: マルチビュー ガウス特徴を効率的かつ強力な表現として提案し、微分可能なレンダリングのために融合できます。
2) 3D バックボーン: 多視点画像上で動作する高スループットのバックボーンとして、非対称 U-Net を提示します。多視点画像は、多視点拡散モデルを活用することでテキストまたは単一視点画像入力から生成できます。
広範な実験により、私たちのアプローチの忠実性と効率性が高いことが実証されました。
特に、トレーニング解像度を 512 に向上させながら 5 秒以内に 3D オブジェクトを生成するという高速性を維持し、それによって高解像度の 3D コンテンツの生成を実現します。
要約(オリジナル)
3D content creation has achieved significant progress in terms of both quality and speed. Although current feed-forward models can produce 3D objects in seconds, their resolution is constrained by the intensive computation required during training. In this paper, we introduce Large Multi-View Gaussian Model (LGM), a novel framework designed to generate high-resolution 3D models from text prompts or single-view images. Our key insights are two-fold: 1) 3D Representation: We propose multi-view Gaussian features as an efficient yet powerful representation, which can then be fused together for differentiable rendering. 2) 3D Backbone: We present an asymmetric U-Net as a high-throughput backbone operating on multi-view images, which can be produced from text or single-view image input by leveraging multi-view diffusion models. Extensive experiments demonstrate the high fidelity and efficiency of our approach. Notably, we maintain the fast speed to generate 3D objects within 5 seconds while boosting the training resolution to 512, thereby achieving high-resolution 3D content generation.
arxiv情報
著者 | Jiaxiang Tang,Zhaoxi Chen,Xiaokang Chen,Tengfei Wang,Gang Zeng,Ziwei Liu |
発行日 | 2024-02-07 17:57:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google