要約
SimAvatar は、テキスト プロンプトからシミュレーション対応の服を着た 3D 人間アバターを生成するように設計されたフレームワークです。
現在のテキスト駆動の人間アバター生成方法は、統一されたジオメトリを使用して髪、衣服、人体をモデル化するか、既存のシミュレーション パイプライン内でのシミュレーションに容易に適応できない髪や衣服を生成します。
主な課題は、物理シミュレータまたはニューラル シミュレータを使用してシミュレーションに対応しながら、基本的な画像拡散モデル (安定拡散など) から確立された事前知識を活用できる方法で髪と衣服のジオメトリを表現することにあります。
このタスクに対処するために、3D ガウスの柔軟性とシミュレーション対応の髪束および衣服メッシュを組み合わせた 2 段階のフレームワークを提案します。
具体的には、まず 3 つのテキスト条件付き 3D 生成モデルを使用して、指定されたテキスト プロンプトから衣服のメッシュ、体型、髪の束を生成します。
基本的な拡散モデルからの事前知識を活用するために、3D ガウスを身体メッシュ、衣服メッシュ、髪束にアタッチし、最適化を通じてアバターの外観を学習します。
ポーズ シーケンスを指定してアバターを操作するには、まず衣服のメッシュと髪の束に物理シミュレータを適用します。
次に、体の各部分に対して慎重に設計されたメカニズムを通じて、その動きを 3D ガウスに転送します。
その結果、合成されたアバターは鮮やかな質感とリアルでダイナミックな動きを実現しました。
私たちの知る限り、私たちの方法は、現在のアプローチの能力を超え、非常に現実的で完全にシミュレーション対応の 3D アバターを生成する最初の方法です。
要約(オリジナル)
We introduce SimAvatar, a framework designed to generate simulation-ready clothed 3D human avatars from a text prompt. Current text-driven human avatar generation methods either model hair, clothing, and the human body using a unified geometry or produce hair and garments that are not easily adaptable for simulation within existing simulation pipelines. The primary challenge lies in representing the hair and garment geometry in a way that allows leveraging established prior knowledge from foundational image diffusion models (e.g., Stable Diffusion) while being simulation-ready using either physics or neural simulators. To address this task, we propose a two-stage framework that combines the flexibility of 3D Gaussians with simulation-ready hair strands and garment meshes. Specifically, we first employ three text-conditioned 3D generative models to generate garment mesh, body shape and hair strands from the given text prompt. To leverage prior knowledge from foundational diffusion models, we attach 3D Gaussians to the body mesh, garment mesh, as well as hair strands and learn the avatar appearance through optimization. To drive the avatar given a pose sequence, we first apply physics simulators onto the garment meshes and hair strands. We then transfer the motion onto 3D Gaussians through carefully designed mechanisms for each body part. As a result, our synthesized avatars have vivid texture and realistic dynamic motion. To the best of our knowledge, our method is the first to produce highly realistic, fully simulation-ready 3D avatars, surpassing the capabilities of current approaches.
arxiv情報
著者 | Xueting Li,Ye Yuan,Shalini De Mello,Gilles Daviet,Jonathan Leaf,Miles Macklin,Jan Kautz,Umar Iqbal |
発行日 | 2024-12-12 18:35:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google