Efficient 3D Articulated Human Generation with Layered Surface Volumes

要約

高品質で多様な 3D 表現されたデジタル ヒューマン アセットへのアクセスは、仮想現実からソーシャル プラットフォームに至るまで、さまざまなアプリケーションにおいて重要です。
3D 敵対的生成ネットワーク (GAN) などの生成的アプローチは、手間のかかる手動コンテンツ作成ツールを急速に置き換えています。
ただし、既存の 3D GAN フレームワークは通常、高速ではあるが品質が制限されているテンプレート メッシュ、または大容量ではあるがレンダリングが遅いボリュームを利用するシーン表現に依存しているため、GAN 設定の 3D 忠実度が制限されます。
この研究では、多関節デジタル ヒューマンのための新しい 3D オブジェクト表現としてレイヤード サーフェス ボリューム (LSV) を導入します。
LSV は、従来のテンプレートの周囲に複数のテクスチャ メッシュ レイヤーを使用して人体を表します。
これらのレイヤーは、高速微分可能なラスター化によるアルファ合成を使用してレンダリングされ、その容量をテンプレート周囲の有限の厚さの多様体に割り当てる体積表現として解釈できます。
髪の毛やアクセサリーなど、表面以外の細かいディテールを表現するのに苦労する従来の単一レイヤーのテンプレートとは異なり、当社のサーフェス ボリュームはそのようなディテールを自然にキャプチャします。
LSV は明確に表現でき、2D ジェネレーターが個々のレイヤーの RGBA テクスチャを合成する方法を学習する GAN 設定で優れた効率を示します。
非構造化シングルビュー 2D 画像データセットでトレーニングされた当社の LSV-GAN は、ビュー一貫性のない 2D アップサンプリング ネットワークを必要とせずに、高品質でビュー一貫性のある 3D 多関節デジタル ヒューマンを生成します。

要約(オリジナル)

Access to high-quality and diverse 3D articulated digital human assets is crucial in various applications, ranging from virtual reality to social platforms. Generative approaches, such as 3D generative adversarial networks (GANs), are rapidly replacing laborious manual content creation tools. However, existing 3D GAN frameworks typically rely on scene representations that leverage either template meshes, which are fast but offer limited quality, or volumes, which offer high capacity but are slow to render, thereby limiting the 3D fidelity in GAN settings. In this work, we introduce layered surface volumes (LSVs) as a new 3D object representation for articulated digital humans. LSVs represent a human body using multiple textured mesh layers around a conventional template. These layers are rendered using alpha compositing with fast differentiable rasterization, and they can be interpreted as a volumetric representation that allocates its capacity to a manifold of finite thickness around the template. Unlike conventional single-layer templates that struggle with representing fine off-surface details like hair or accessories, our surface volumes naturally capture such details. LSVs can be articulated, and they exhibit exceptional efficiency in GAN settings, where a 2D generator learns to synthesize the RGBA textures for the individual layers. Trained on unstructured, single-view 2D image datasets, our LSV-GAN generates high-quality and view-consistent 3D articulated digital humans without the need for view-inconsistent 2D upsampling networks.

arxiv情報

著者 Yinghao Xu,Wang Yifan,Alexander W. Bergman,Menglei Chai,Bolei Zhou,Gordon Wetzstein
発行日 2023-07-11 17:50:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク