TextGaze: Gaze-Controllable Face Generation with Natural Language

要約

特定の視線情報を利用した顔画像の生成が注目を集めています。
既存のアプローチは通常、顔生成のために視線値を直接入力しますが、これは不自然であり、トレーニングに注釈付きの視線データセットが必要なため、その用途が制限されます。
この論文では、新しい視線制御可能な顔生成タスクを紹介します。
私たちのアプローチは、人間の視線と頭の動作を説明するテキスト記述を入力し、対応する顔画像を生成します。
私たちの研究では、まず、視線と頭のポーズの密な分布にわたる 90,000 を超えるテキスト記述を含む視線テキスト データセットを導入します。
さらに、視線制御可能なテキストと対面の方法を提案します。
私たちの方法には、スケッチ条件付きの顔拡散モジュールとモデルベースのスケッチ拡散モジュールが含まれています。
顔のランドマークと目のセグメンテーション マップに基づいて顔のスケッチを定義します。
顔拡散モジュールは顔スケッチから顔画像を生成し、スケッチ拡散モジュールは 3D 顔モデルを使用してテキスト記述から顔スケッチを生成します。
FFHQ データセットの実験では、私たちの方法の有効性が示されています。
今後の研究のためにデータセットとコードを公開します。

要約(オリジナル)

Generating face image with specific gaze information has attracted considerable attention. Existing approaches typically input gaze values directly for face generation, which is unnatural and requires annotated gaze datasets for training, thereby limiting its application. In this paper, we present a novel gaze-controllable face generation task. Our approach inputs textual descriptions that describe human gaze and head behavior and generates corresponding face images. Our work first introduces a text-of-gaze dataset containing over 90k text descriptions spanning a dense distribution of gaze and head poses. We further propose a gaze-controllable text-to-face method. Our method contains a sketch-conditioned face diffusion module and a model-based sketch diffusion module. We define a face sketch based on facial landmarks and eye segmentation map. The face diffusion module generates face images from the face sketch, and the sketch diffusion module employs a 3D face model to generate face sketch from text description. Experiments on the FFHQ dataset show the effectiveness of our method. We will release our dataset and code for future research.

arxiv情報

著者 Hengfei Wang,Zhongqun Zhang,Yihua Cheng,Hyung Jin Chang
発行日 2024-09-09 14:45:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク