要約
テキストから 3D への合成は、最近、テキストから画像への事前分布を 3D 表現方法 (たとえば、スコア蒸留サンプリング (SDS) による 3D ガウス スプラッティング (3D GS) など) と組み合わせることで、興味深い進歩を遂げています。
ただし、既存の方法の障害は、単一の 3D オブジェクトに対するプロンプトごとの最適化の効率が低いことです。
したがって、プロンプトごとの最適化から、目に見えないテキスト プロンプトに対するフィードフォワード生成へのパラダイム シフトが不可欠ですが、これは依然として課題です。
障害となるのは、3D オブジェクトを表すために何百万もの 3D ガウスのセットを直接生成する方法です。
このペーパーでは、一般化可能で高速 (77 ミリ秒) のテキストから 3D への生成を実現できる、エンドツーエンドのフィードフォワード アプローチである BrightDreamer について説明します。
私たちの重要なアイデアは、事前に定義された位置を持つアンカー形状から 3D 変形を推定するように生成プロセスを定式化することです。
このために、最初に、3D ガウスの中心 (1 つの属性) として使用される、変形された形状とその新しい位置を予測するテキストガイド付き形状変形 (TSD) ネットワークを提案します。
他の 4 つの属性 (つまり、スケーリング、回転、不透明度、SH) を推定するために、3D オブジェクトのトライプレーン表現を生成する新しいテキストガイド付きトライプレーン ジェネレーター (TTG) を設計します。
各ガウスの中心により、空間特徴を 4 つの属性に変換できます。
生成された 3D ガウスは、最終的に 705 フレーム/秒でレンダリングできます。
広範な実験により、既存の方法に対する私たちの方法の優位性が実証されています。
また、BrightDreamer は、複雑なテキスト プロンプトに対しても強力な意味理解機能を備えています。
コードはプロジェクト ページから入手できます。
要約(オリジナル)
Text-to-3D synthesis has recently seen intriguing advances by combining the text-to-image priors with 3D representation methods, e.g., 3D Gaussian Splatting (3D GS), via Score Distillation Sampling (SDS). However, a hurdle of existing methods is the low efficiency, per-prompt optimization for a single 3D object. Therefore, it is imperative for a paradigm shift from per-prompt optimization to feed-forward generation for any unseen text prompts, which yet remains challenging. An obstacle is how to directly generate a set of millions of 3D Gaussians to represent a 3D object. This paper presents BrightDreamer, an end-to-end feed-forward approach that can achieve generalizable and fast (77 ms) text-to-3D generation. Our key idea is to formulate the generation process as estimating the 3D deformation from an anchor shape with predefined positions. For this, we first propose a Text-guided Shape Deformation (TSD) network to predict the deformed shape and its new positions, used as the centers (one attribute) of 3D Gaussians. To estimate the other four attributes (i.e., scaling, rotation, opacity, and SH), we then design a novel Text-guided Triplane Generator (TTG) to generate a triplane representation for a 3D object. The center of each Gaussian enables us to transform the spatial feature into the four attributes. The generated 3D Gaussians can be finally rendered at 705 frames per second. Extensive experiments demonstrate the superiority of our method over existing methods. Also, BrightDreamer possesses a strong semantic understanding capability even for complex text prompts. The code is available in the project page.
arxiv情報
著者 | Lutao Jiang,Xu Zheng,Yuanhuiyi Lyu,Jiazhou Zhou,Lin Wang |
発行日 | 2024-11-18 14:19:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google