TextGaze: Gaze-Controllable Face Generation with Natural Language


私たちの研究では、まず、視線と頭のポーズの密な分布にわたる 90,000 を超えるテキスト記述を含む視線テキスト データセットを導入します。
顔のランドマークと目のセグメンテーション マップに基づいて顔のスケッチを定義します。
顔拡散モジュールは顔スケッチから顔画像を生成し、スケッチ拡散モジュールは 3D 顔モデルを使用してテキスト記述から顔スケッチを生成します。
FFHQ データセットでの実験は、私たちの方法の有効性を示しています。


Generating face image with specific gaze information has attracted considerable attention. Existing approaches typically input gaze values directly for face generation, which is unnatural and requires annotated gaze datasets for training, thereby limiting its application. In this paper, we present a novel gaze-controllable face generation task. Our approach inputs textual descriptions that describe human gaze and head behavior and generates corresponding face images. Our work first introduces a text-of-gaze dataset containing over 90k text descriptions spanning a dense distribution of gaze and head poses. We further propose a gaze-controllable text-to-face method. Our method contains a sketch-conditioned face diffusion module and a model-based sketch diffusion module. We define a face sketch based on facial landmarks and eye segmentation map. The face diffusion module generates face images from the face sketch, and the sketch diffusion module employs a 3D face model to generate face sketch from text description. Experiments on the FFHQ dataset show the effectiveness of our method. We will release our dataset and code for future research.


著者 Hengfei Wang,Zhongqun Zhang,Yihua Cheng,Hyung Jin Chang
発行日 2024-04-26 15:42:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク