要約
最近の進歩により、一般的な3D形状生成モデルで顕著な進歩が示されていますが、ウェアラブル3Dアセットを自動的に生成するためにこれらのアプローチを活用するという課題は未開拓のままです。
この目的のために、特定の3Dの人体に自動的に服を着ることができる3Dウェアラブルアセットを出力するために、体に合った資産生成法であるバッグを提示します。
これは、人体の形とポーズ情報を使用して3D生成プロセスを制御することで痛みます。
具体的には、まず、一貫したマルチビュー画像拡散モデルに一般的な単一画像を構築し、多様性と一般化可能性を実現するために、大きなObjaverseデータセットでそれをトレーニングします。
次に、Multiviewジェネレーターをガイドして、ボディアラインドマルチビュー画像を作成するようにコントロールネットをトレーニングします。
コントロール信号は、標的人体のマルチビュー2D投影を利用します。ピクセル値は、標準空間の身体表面のXYZ座標を表します。
ボディコンディショニングされたマルチビュー拡散は、ボディアラインドマルチビュー画像を生成し、その後、ネイティブ3D拡散モデルに供給されて、アセットの3D形状を生成します。
最後に、マルチビューシルエットの監督を使用して類似性変換を回復し、物理シミュレーターを使用した資産体浸透に対処することにより、3Dアセットをターゲットの人体に正確に適合させることができます。
実験結果は、画像の迅速な形成能力、形状の多様性、および形状の品質に関して、既存の方法よりも大きな利点を示しています。
プロジェクトページはhttps://bag-3d.github.io/で入手できます。
要約(オリジナル)
While recent advancements have shown remarkable progress in general 3D shape generation models, the challenge of leveraging these approaches to automatically generate wearable 3D assets remains unexplored. To this end, we present BAG, a Body-aligned Asset Generation method to output 3D wearable asset that can be automatically dressed on given 3D human bodies. This is achived by controlling the 3D generation process using human body shape and pose information. Specifically, we first build a general single-image to consistent multiview image diffusion model, and train it on the large Objaverse dataset to achieve diversity and generalizability. Then we train a Controlnet to guide the multiview generator to produce body-aligned multiview images. The control signal utilizes the multiview 2D projections of the target human body, where pixel values represent the XYZ coordinates of the body surface in a canonical space. The body-conditioned multiview diffusion generates body-aligned multiview images, which are then fed into a native 3D diffusion model to produce the 3D shape of the asset. Finally, by recovering the similarity transformation using multiview silhouette supervision and addressing asset-body penetration with physics simulators, the 3D asset can be accurately fitted onto the target human body. Experimental results demonstrate significant advantages over existing methods in terms of image prompt-following capability, shape diversity, and shape quality. Our project page is available at https://bag-3d.github.io/.
arxiv情報
著者 | Zhongjin Luo,Yang Li,Mingrui Zhang,Senbo Wang,Han Yan,Xibin Song,Taizhang Shang,Wei Mao,Hongdong Li,Xiaoguang Han,Pan Ji |
発行日 | 2025-01-27 16:23:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google