Human Image Generation: A Comprehensive Survey

要約

画像とビデオの合成は、その学術的および応用的価値が大きいため、深層生成モデルの開発とともにコンピューター ビジョンと機械学習のコミュニティで注目を集めています。
多くの研究者は、日常生活で最も一般的に見られるオブジェクト カテゴリの 1 つとして、忠実度の高い人間の画像を合成することに専念しており、さまざまなモデル、タスク設定、およびアプリケーションに基づいて多数の研究が実行されています。
したがって、人物画像生成に関するこれらのさまざまな方法について包括的な概要を与える必要があります。
本論文では、人物画像生成技術をデータ駆動型手法、知識誘導型手法、ハイブリッド手法という 3 つのパラダイムに分類します。
各パラダイムについて、最も代表的なモデルと対応するバリアントが示されており、さまざまな方法の利点と特徴がモデル アーキテクチャの観点から要約されています。
さらに、文献における主要な公開人物画像データセットと評価指標が要約されています。
さらに、幅広い用途の可能性があるため、合成された人物画像の一般的な下流用途もカバーされています。
最後に、将来の研究に光を当てるために、人間の画像生成の課題と潜在的な機会について説明します。

要約(オリジナル)

Image and video synthesis has become a blooming topic in computer vision and machine learning communities along with the developments of deep generative models, due to its great academic and application value. Many researchers have been devoted to synthesizing high-fidelity human images as one of the most commonly seen object categories in daily lives, where a large number of studies are performed based on various models, task settings and applications. Thus, it is necessary to give a comprehensive overview on these variant methods on human image generation. In this paper, we divide human image generation techniques into three paradigms, i.e., data-driven methods, knowledge-guided methods and hybrid methods. For each paradigm, the most representative models and the corresponding variants are presented, where the advantages and characteristics of different methods are summarized in terms of model architectures. Besides, the main public human image datasets and evaluation metrics in the literature are summarized. Furthermore, due to the wide application potentials, the typical downstream usages of synthesized human images are covered. Finally, the challenges and potential opportunities of human image generation are discussed to shed light on future research.

arxiv情報

著者 Zhen Jia,Zhang Zhang,Liang Wang,Tieniu Tan
発行日 2024-05-07 12:15:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク