Text-Guided Generation and Editing of Compositional 3D Avatars

要約

私たちの目標は、テキストの説明だけを使用して、髪やアクセサリーを備えたリアルな 3D 顔アバターを作成することです。
この課題は最近大きな関心を集めていますが、既存の方法は現実性に欠けているか、非現実的な形状を生成するか、ヘアスタイルの変更などの編集をサポートしていません。
私たちは、既存の手法は、頭、顔、髪、アクセサリーに単一の表現を使用するモノリシック モデリング アプローチを採用しているため、限界があると主張します。
私たちの観察によると、たとえば髪と顔は非常に異なる構造的性質を持っており、異なる表現から恩恵を受けることができます。
この洞察に基づいて、頭、顔、上半身が従来の 3D メッシュで表現され、髪、衣服、アクセサリーが神経放射フィールド (NeRF) で表現される構成モデルを使用してアバターを生成します。
モデルベースのメッシュ表現により、顔領域に強力な幾何学的事前定義が提供され、人物の外観の編集が可能になると同時にリアリズムが向上します。
NeRF を使用して残りのコンポーネントを表すことにより、私たちの方法では、巻き毛やふわふわのスカーフなど、複雑な形状と外観を持つパーツをモデル化して合成できます。
私たちの新しいシステムは、テキストの説明からこれらの高品質の構成アバターを合成します。
実験結果は、私たちの方法であるテキストガイドによる構成アバターの生成と編集 (TECA) が、構成的な性質により編集可能でありながら、最近の方法よりも現実的なアバターを生成することを示しています。
たとえば、当社の TECA を使用すると、ヘアスタイル、スカーフ、その他のアクセサリーなどの構成要素をアバター間でシームレスに転送できます。
この機能は、仮想試着などのアプリケーションをサポートします。

要約(オリジナル)

Our goal is to create a realistic 3D facial avatar with hair and accessories using only a text description. While this challenge has attracted significant recent interest, existing methods either lack realism, produce unrealistic shapes, or do not support editing, such as modifications to the hairstyle. We argue that existing methods are limited because they employ a monolithic modeling approach, using a single representation for the head, face, hair, and accessories. Our observation is that the hair and face, for example, have very different structural qualities that benefit from different representations. Building on this insight, we generate avatars with a compositional model, in which the head, face, and upper body are represented with traditional 3D meshes, and the hair, clothing, and accessories with neural radiance fields (NeRF). The model-based mesh representation provides a strong geometric prior for the face region, improving realism while enabling editing of the person’s appearance. By using NeRFs to represent the remaining components, our method is able to model and synthesize parts with complex geometry and appearance, such as curly hair and fluffy scarves. Our novel system synthesizes these high-quality compositional avatars from text descriptions. The experimental results demonstrate that our method, Text-guided generation and Editing of Compositional Avatars (TECA), produces avatars that are more realistic than those of recent methods while being editable because of their compositional nature. For example, our TECA enables the seamless transfer of compositional features like hairstyles, scarves, and other accessories between avatars. This capability supports applications such as virtual try-on.

arxiv情報

著者 Hao Zhang,Yao Feng,Peter Kulits,Yandong Wen,Justus Thies,Michael J. Black
発行日 2023-09-13 17:59:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク