GALA: Generating Animatable Layered Assets from a Single Scan

要約

私たちは、単層の衣服を着た 3D ヒューマン メッシュを入力として受け取り、それを完全な多層 3D アセットに分解するフレームワークである GALA を紹介します。
出力を他のアセットと組み合わせて、任意のポーズの新しい服を着た人間のアバターを作成できます。
既存の再構成アプローチでは、服を着た人間を単一のジオメトリ層として扱うことが多く、髪型、衣服、アクセサリーなどの人間の固有の構成性が無視されるため、下流のアプリケーションでのメッシュの有用性が制限されます。
単層メッシュを個別の層に分解することは、重度に遮蔽された領域の妥当なジオメトリとテクスチャを合成する必要があるため、困難な作業です。
さらに、分解が成功したとしても、メッシュはポーズや体の形状に関して正規化されていないため、新しいアイデンティティやポーズで一貫した合成ができません。
これらの課題に対処するために、人間やその他の資産のジオメトリと外観として事前にトレーニングされた 2D 拡散モデルの一般的な知識を活用することを提案します。
まず、マルチビュー 2D セグメンテーションから抽出された 3D サーフェス セグメンテーションを使用して入力メッシュを分離します。
次に、新しいポーズガイド付きスコア蒸留サンプリング (SDS) 損失を使用して、ポーズ空間と標準空間の両方でさまざまなレイヤーの欠落しているジオメトリを合成します。
高忠実度 3D ジオメトリの修復が完了したら、同じ SDS 損失をテクスチャに適用して、最初に遮蔽された領域を含む完全な外観を取得します。
一連の分解ステップを通じて、ポーズと人間の形状に関して正規化された共有標準空間内に 3D アセットの複数のレイヤーが得られるため、新しいアイデンティティへの簡単な合成と新しいポーズでの蘇生がサポートされます。
私たちの実験では、既存のソリューションと比較して、分解、正規化、および合成タスクに対するアプローチの有効性を実証しています。

要約(オリジナル)

We present GALA, a framework that takes as input a single-layer clothed 3D human mesh and decomposes it into complete multi-layered 3D assets. The outputs can then be combined with other assets to create novel clothed human avatars with any pose. Existing reconstruction approaches often treat clothed humans as a single-layer of geometry and overlook the inherent compositionality of humans with hairstyles, clothing, and accessories, thereby limiting the utility of the meshes for downstream applications. Decomposing a single-layer mesh into separate layers is a challenging task because it requires the synthesis of plausible geometry and texture for the severely occluded regions. Moreover, even with successful decomposition, meshes are not normalized in terms of poses and body shapes, failing coherent composition with novel identities and poses. To address these challenges, we propose to leverage the general knowledge of a pretrained 2D diffusion model as geometry and appearance prior for humans and other assets. We first separate the input mesh using the 3D surface segmentation extracted from multi-view 2D segmentations. Then we synthesize the missing geometry of different layers in both posed and canonical spaces using a novel pose-guided Score Distillation Sampling (SDS) loss. Once we complete inpainting high-fidelity 3D geometry, we also apply the same SDS loss to its texture to obtain the complete appearance including the initially occluded regions. Through a series of decomposition steps, we obtain multiple layers of 3D assets in a shared canonical space normalized in terms of poses and human shapes, hence supporting effortless composition to novel identities and reanimation with novel poses. Our experiments demonstrate the effectiveness of our approach for decomposition, canonicalization, and composition tasks compared to existing solutions.

arxiv情報

著者 Taeksoo Kim,Byungjun Kim,Shunsuke Saito,Hanbyul Joo
発行日 2024-01-23 18:59:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク