Instant 3D Human Avatar Generation using Image Diffusion Models

要約

画像やテキスト プロンプトなどのさまざまな入力モダリティから、生成されたポーズや形状を制御しながら、高速で高品質の 3D ヒューマン アバターを生成するメソッドである AvatarPopUp を紹介します。
共通のテーマは、特定のタスクごとに特化した拡散ベースの画像生成ネットワークの使用と、それに続く 3D リフティング ネットワークの使用です。
私たちは、生成を 3D モデリングから意図的に切り離すことで、数十億のテキストと画像のペアでトレーニングされた強力な画像合成事前処理を活用できるようにします。
画像生成や後方視界予測などのタスクを解決し、質的に異なる複数の 3D 仮説をサポートするために、追加の画像調整を使用して潜在拡散ネットワークを微調整します。
私たちの部分的な微調整アプローチにより、致命的な忘れを誘発することなく、各タスクにネットワークを適応させることができます。
私たちの実験では、私たちの方法が、マルチモーダルなテキスト、画像、身体制御信号を尊重した、多様な外観を備えた正確で高品質な 3D アバターを生成することを実証しました。
私たちのアプローチでは、わずか 2 秒で 3D モデルを作成できます。
既存の方法の大部分は、タスクのサブセットのみを解決し、制御が少ないため、大規模な人間アバターの制御された 3D 生成を必要とするアプリケーションを可能にします。
プロジェクトの Web サイトは https://www.nikoskolot.com/avatarpopup/ でご覧いただけます。

要約(オリジナル)

We present AvatarPopUp, a method for fast, high quality 3D human avatar generation from different input modalities, such as images and text prompts and with control over the generated pose and shape. The common theme is the use of diffusion-based image generation networks that are specialized for each particular task, followed by a 3D lifting network. We purposefully decouple the generation from the 3D modeling which allow us to leverage powerful image synthesis priors, trained on billions of text-image pairs. We fine-tune latent diffusion networks with additional image conditioning to solve tasks such as image generation and back-view prediction, and to support qualitatively different multiple 3D hypotheses. Our partial fine-tuning approach allows to adapt the networks for each task without inducing catastrophic forgetting. In our experiments, we demonstrate that our method produces accurate, high-quality 3D avatars with diverse appearance that respect the multimodal text, image, and body control signals. Our approach can produce a 3D model in as few as 2 seconds, a four orders of magnitude speedup w.r.t. the vast majority of existing methods, most of which solve only a subset of our tasks, and with fewer controls, thus enabling applications that require the controlled 3D generation of human avatars at scale. The project website can be found at https://www.nikoskolot.com/avatarpopup/.

arxiv情報

著者 Nikos Kolotouros,Thiemo Alldieck,Enric Corona,Eduard Gabriel Bazavan,Cristian Sminchisescu
発行日 2024-06-11 17:47:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク