HumanLiff: Layer-wise 3D Human Generation with Diffusion Model

要約

2D 画像からの 3D 人間の生成は、ニューラル レンダリングと生成モデルの相乗利用を通じて目覚ましい進歩を遂げています。
既存の 3D 人体生成モデルは主に、衣服を着た 3D 人体を検出不可能な 3D モデルとして 1 回のパスで生成しますが、衣服を着た人体のレイヤーごとの性質はほとんど考慮されていません。服を着た人体の層別の性質は、人体と下着、上着などのさまざまな衣服で構成されることがよくあります。
この研究では、統一された拡散プロセスを備えた最初のレイヤーごとの 3D 人間生成モデルである HumanLiff を提案します。
具体的には、HumanLiff はまず、正準空間内で、トライプレーン フィーチャで表される最小限の衣服を着た人間を生成し、次にレイヤーごとに衣服を段階的に生成します。
このようにして、3D 人間の生成は、拡散ベースの 3D 条件付き生成のシーケンスとして定式化されます。
トライプレーン表現でよりきめの細かい 3D 人間を再構成するために、各トライプレーンを 3 つのサブプレーンに分割し、これらのサブプレーンをシフトして特徴グリッドの細分割を可能にするトライプレーン シフト操作を提案します。
3D 階層化条件による 3D 生成の制御性をさらに高めるために、HumanLiff はトライプレーン フィーチャと 3D 階層化条件を階層的に融合して、3D 拡散モデルの学習を容易にします。
SynBody (合成) と TightCap (現実世界) という 2 つのレイヤーごとの 3D 人体データセットに関する広範な実験により、HumanLiff がレイヤーごとの 3D 人体生成において最先端の手法を大幅に上回ることが検証されました。
私たちのコードは https://skhu101.github.io/HumanLiff で入手できます。

要約(オリジナル)

3D human generation from 2D images has achieved remarkable progress through the synergistic utilization of neural rendering and generative models. Existing 3D human generative models mainly generate a clothed 3D human as an undetectable 3D model in a single pass, while rarely considering the layer-wise nature of a clothed human body, which often consists of the human body and various clothes such as underwear, outerwear, trousers, shoes, etc. In this work, we propose HumanLiff, the first layer-wise 3D human generative model with a unified diffusion process. Specifically, HumanLiff firstly generates minimal-clothed humans, represented by tri-plane features, in a canonical space, and then progressively generates clothes in a layer-wise manner. In this way, the 3D human generation is thus formulated as a sequence of diffusion-based 3D conditional generation. To reconstruct more fine-grained 3D humans with tri-plane representation, we propose a tri-plane shift operation that splits each tri-plane into three sub-planes and shifts these sub-planes to enable feature grid subdivision. To further enhance the controllability of 3D generation with 3D layered conditions, HumanLiff hierarchically fuses tri-plane features and 3D layered conditions to facilitate the 3D diffusion model learning. Extensive experiments on two layer-wise 3D human datasets, SynBody (synthetic) and TightCap (real-world), validate that HumanLiff significantly outperforms state-of-the-art methods in layer-wise 3D human generation. Our code will be available at https://skhu101.github.io/HumanLiff.

arxiv情報

著者 Shoukang Hu,Fangzhou Hong,Tao Hu,Liang Pan,Haiyi Mei,Weiye Xiao,Lei Yang,Ziwei Liu
発行日 2023-08-18 17:59:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク