HyperStyle3D: Text-Guided 3D Portrait Stylization via Hypernetworks

要約

タイトル: HyperStyle3D:ハイパーネットワークを用いたテキストガイドされた3D肖像画のスタイリング

要約:
– ポートレートのスタイリングは、様々なアプリケーションに使用される長年のタスクである。
– 近年、2Dベースの手法は大きな進歩を遂げているが、メタバースやゲームなどの実世界のアプリケーションでは、しばしば3Dコンテンツを必要とするという課題がある。
– 一方、3Dデータの取得にはコストがかかるため、3D肖像画のスタイリング手法の開発を大きく妨げている。
– 本研究では、2Dと3Dの領域を結ぶために中間表現として3Dフィールドを使用した3D-aware GANsの成功を受けて、ハイパーネットワークに基づく新しい手法「HyperStyle3D」を提案する。
– この手法の中心には、一度の前方パスでジェネレータのパラメータを操作することができるハイパーネットワークがある。
– これにより、1つのモデルで複数のスタイルを扱う強力な能力が得られるだけでなく、肖像画のテクスチャ、形状、またはローカルパートにのみ影響を与える柔軟な細かいスタイリングも可能になる。
– 3D-aware GANsの使用により、3Dデータの必要性を回避する一方、CLIPモデルをスタイルのガイドとして使用することで、スタイル画像の必要性も緩和している。
– スタイル、属性、形状を含む幅広い実験を行い、同時に3Dの一致性を測定した結果、このHyperStyle3Dモデルが多様なスタイルで3D整合性のある画像をレンダリングし、顔の形状を変形し、さまざまな属性を編集する能力の優れたものであることが示された。

要約(オリジナル)

Portrait stylization is a long-standing task enabling extensive applications. Although 2D-based methods have made great progress in recent years, real-world applications such as metaverse and games often demand 3D content. On the other hand, the requirement of 3D data, which is costly to acquire, significantly impedes the development of 3D portrait stylization methods. In this paper, inspired by the success of 3D-aware GANs that bridge 2D and 3D domains with 3D fields as the intermediate representation for rendering 2D images, we propose a novel method, dubbed HyperStyle3D, based on 3D-aware GANs for 3D portrait stylization. At the core of our method is a hyper-network learned to manipulate the parameters of the generator in a single forward pass. It not only offers a strong capacity to handle multiple styles with a single model, but also enables flexible fine-grained stylization that affects only texture, shape, or local part of the portrait. While the use of 3D-aware GANs bypasses the requirement of 3D data, we further alleviate the necessity of style images with the CLIP model being the stylization guidance. We conduct an extensive set of experiments across the style, attribute, and shape, and meanwhile, measure the 3D consistency. These experiments demonstrate the superior capability of our HyperStyle3D model in rendering 3D-consistent images in diverse styles, deforming the face shape, and editing various attributes.

arxiv情報

著者 Zhuo Chen,Xudong Xu,Yichao Yan,Ye Pan,Wenhan Zhu,Wayne Wu,Bo Dai,Xiaokang Yang
発行日 2023-04-19 07:22:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク