FashionEngine: Interactive 3D Human Generation and Editing via Multimodal Controls

要約

私たちは、自然言語、視覚認識、手描きスケッチなどのユーザーフレンドリーなマルチモーダル コントロールを介して 3D デジタル ヒューマンを作成する、インタラクティブな 3D ヒューマン生成および編集システムである FashionEngine を紹介します。
FashionEngine は、3 つの主要なコンポーネントを使用して 3D 人間の制作を自動化します。 1) 2D 画像トレーニング データからセマンティック UV 潜在空間で 3D 人間をモデル化することを学習する事前トレーニング済み 3D 人間拡散モデル。これは、さまざまな生成および編集タスクに強力な事前分布を提供します。
2) マルチモダリティ UV スペースは、人間の衣服のテクスチャの外観、形状トポロジ、およびテキストのセマンティクスを正規の UV 整列空間にエンコードします。これにより、ユーザーのマルチモーダル入力が暗黙的な UV 潜在空間と忠実に整列され、制御可能な 3D 人間の編集が可能になります。
マルチモーダリティ UV 空間は、テキスト、画像、スケッチなどのさまざまなユーザー入力間で共有され、さまざまな共同マルチモーダル編集タスクが可能になります。
3) Multimodality-UV Aligned Sampler は、事前の拡散から高品質で多様な 3D 人間をサンプリングする方法を学習します。
広範な実験により、条件付き生成/編集タスクに対する FashionEngine の最先端のパフォーマンスが検証されています。
さらに、条件付きおよび無条件の生成タスクと、ポーズ/ビュー/形状制御、テキスト、画像、およびスケッチ駆動の 3D ヒューマン編集と 3D 仮想試行などの編集タスクを可能にする、FashionEngine のインタラクティブなユーザー インターフェイスを提供します。
統一されたフレームワークで。
私たちのプロジェクト ページは https://taohumd.github.io/projects/FashionEngine にあります。

要約(オリジナル)

We present FashionEngine, an interactive 3D human generation and editing system that creates 3D digital humans via user-friendly multimodal controls such as natural languages, visual perceptions, and hand-drawing sketches. FashionEngine automates the 3D human production with three key components: 1) A pre-trained 3D human diffusion model that learns to model 3D humans in a semantic UV latent space from 2D image training data, which provides strong priors for diverse generation and editing tasks. 2) Multimodality-UV Space encoding the texture appearance, shape topology, and textual semantics of human clothing in a canonical UV-aligned space, which faithfully aligns the user multimodal inputs with the implicit UV latent space for controllable 3D human editing. The multimodality-UV space is shared across different user inputs, such as texts, images, and sketches, which enables various joint multimodal editing tasks. 3) Multimodality-UV Aligned Sampler learns to sample high-quality and diverse 3D humans from the diffusion prior. Extensive experiments validate FashionEngine’s state-of-the-art performance for conditional generation/editing tasks. In addition, we present an interactive user interface for our FashionEngine that enables both conditional and unconditional generation tasks, and editing tasks including pose/view/shape control, text-, image-, and sketch-driven 3D human editing and 3D virtual try-on, in a unified framework. Our project page is at: https://taohuumd.github.io/projects/FashionEngine.

arxiv情報

著者 Tao Hu,Fangzhou Hong,Zhaoxi Chen,Ziwei Liu
発行日 2024-05-20 17:25:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク