HyperHuman: Hyper-Realistic Human Generation with Latent Structural Diffusion

要約

大規模なテキストから画像へのモデルの大幅な進歩にも関わらず、超現実的な人物画像の生成を達成することは、依然として望ましい課題ですが、未解決の課題です。
Stable Diffusion や DALL-E 2 などの既存のモデルでは、一貫性のない部分や不自然なポーズを持つ人物画像が生成される傾向があります。
これらの課題に取り組むための重要な洞察は、人間のイメージは本質的に、粗いレベルの身体骨格から細粒度の空間幾何学に至るまで、複数の粒度にわたって構造的であるということです。
したがって、明示的な外観と潜在的な構造の間のこのような相関関係を 1 つのモデルで捉えることは、一貫した自然な人間のイメージを生成するために不可欠です。
この目的を達成するために、私たちは、高いリアリズムと多様なレイアウトの野生の人間の画像を生成する統合フレームワーク HyperHuman を提案します。
具体的には、1) まず、HumanVerse という名前の大規模な人間中心のデータセットを構築します。このデータセットは、人間の姿勢、深度、表面法線などの包括的な注釈が付いた 3 億 4,000 万枚の画像で構成されています。
2) 次に、合成された RGB 画像とともに深さと表面法線のノイズを同時に除去する潜在構造拡散モデルを提案します。
私たちのモデルは、統合ネットワーク内で画像の外観、空間関係、ジオメトリの共同学習を強制し、モデル内の各ブランチが構造認識とテクスチャの豊かさの両方で相互に補完します。
3) 最後に、視覚的な品質をさらに向上させるために、高解像度のより詳細な生成のための予測条件を構成する構造誘導リファイナーを提案します。
広範な実験により、私たちのフレームワークが最先端のパフォーマンスを発揮し、さまざまなシナリオの下で超現実的な人間の画像を生成することが実証されました。
プロジェクトページ: https://snap-research.github.io/HyperHuman/

要約(オリジナル)

Despite significant advances in large-scale text-to-image models, achieving hyper-realistic human image generation remains a desirable yet unsolved task. Existing models like Stable Diffusion and DALL-E 2 tend to generate human images with incoherent parts or unnatural poses. To tackle these challenges, our key insight is that human image is inherently structural over multiple granularities, from the coarse-level body skeleton to fine-grained spatial geometry. Therefore, capturing such correlations between the explicit appearance and latent structure in one model is essential to generate coherent and natural human images. To this end, we propose a unified framework, HyperHuman, that generates in-the-wild human images of high realism and diverse layouts. Specifically, 1) we first build a large-scale human-centric dataset, named HumanVerse, which consists of 340M images with comprehensive annotations like human pose, depth, and surface normal. 2) Next, we propose a Latent Structural Diffusion Model that simultaneously denoises the depth and surface normal along with the synthesized RGB image. Our model enforces the joint learning of image appearance, spatial relationship, and geometry in a unified network, where each branch in the model complements to each other with both structural awareness and textural richness. 3) Finally, to further boost the visual quality, we propose a Structure-Guided Refiner to compose the predicted conditions for more detailed generation of higher resolution. Extensive experiments demonstrate that our framework yields the state-of-the-art performance, generating hyper-realistic human images under diverse scenarios. Project Page: https://snap-research.github.io/HyperHuman/

arxiv情報

著者 Xian Liu,Jian Ren,Aliaksandr Siarohin,Ivan Skorokhodov,Yanyu Li,Dahua Lin,Xihui Liu,Ziwei Liu,Sergey Tulyakov
発行日 2023-10-12 17:59:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク