要約
私たちは、シングル パスでセマンティック構成の 3D シーンを生成できる拡散ベースのフレームワークである Frankenstein を紹介します。
単一の統一された 3D 形状を出力する既存の方法とは異なり、フランケンシュタインは、意味的に意味のある部分にそれぞれ対応する複数の分離された形状を同時に生成します。
3D シーン情報は 1 つのトライプレーン テンソルでエンコードされ、そこから複数の Singed Distance Function (SDF) フィールドをデコードして、合成形状を表すことができます。
トレーニング中に、オートエンコーダーはトライプレーンを潜在空間に圧縮し、その後、ノイズ除去拡散プロセスを使用して、構成シーンの分布を近似します。
Frankenstein は、自動的にパーツが分離された人間のアバターだけでなく、部屋のインテリアの生成においても有望な結果を示しています。
生成されたシーンは、部分的な再テクスチャリング、部屋内のオブジェクトの再配置、アバター クロスの再ターゲットなど、多くの下流アプリケーションを容易にします。
私たちのプロジェクト ページは https://wolfball.github.io/frankenstein/ から入手できます。
要約(オリジナル)
We present Frankenstein, a diffusion-based framework that can generate semantic-compositional 3D scenes in a single pass. Unlike existing methods that output a single, unified 3D shape, Frankenstein simultaneously generates multiple separated shapes, each corresponding to a semantically meaningful part. The 3D scene information is encoded in one single tri-plane tensor, from which multiple Singed Distance Function (SDF) fields can be decoded to represent the compositional shapes. During training, an auto-encoder compresses tri-planes into a latent space, and then the denoising diffusion process is employed to approximate the distribution of the compositional scenes. Frankenstein demonstrates promising results in generating room interiors as well as human avatars with automatically separated parts. The generated scenes facilitate many downstream applications, such as part-wise re-texturing, object rearrangement in the room or avatar cloth re-targeting. Our project page is available at: https://wolfball.github.io/frankenstein/.
arxiv情報
著者 | Han Yan,Yang Li,Zhennan Wu,Shenzhou Chen,Weixuan Sun,Taizhang Shang,Weizhe Liu,Tian Chen,Xiaqiang Dai,Chao Ma,Hongdong Li,Pan Ji |
発行日 | 2024-08-30 17:39:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google