UnitedHuman: Harnessing Multi-Source Data for High-Resolution Human Generation

要約

人類の世代は大きな進歩を遂げました。
それにもかかわらず、既存の方法では、顔や手などの特定の領域を合成するのに依然として苦労しています。
私たちは、主な理由はトレーニング データにあると主張します。
全体的な人間のデータセットには、必然的に局所的な部分に関する不十分で低解像度の情報が含まれます。
したがって、さまざまな解像度の画像を含むマルチソース データセットを使用して、高解像度の人間生成モデルを共同学習することを提案します。
ただし、マルチソース データには本質的に、a) 一貫した人間に空間的に一致しないさまざまな部分が含まれており、b) 異なるスケールが含まれています。
これらの課題に取り組むために、私たちは、高解像度のヒューマン生成にマルチソース データを効果的に利用する機能を継続的 GAN に提供する、エンドツーエンドのフレームワーク UnitedHuman を提案します。
具体的には、1) ヒューマンパラメトリックモデルを使用して、マルチソース画像を全身空間に空間的に位置合わせするマルチソース空間トランスフォーマーを設計します。
2) 次に、グローバル構造ガイダンスと CutMix の一貫性を備えた連続 GAN が提案されます。
次に、さまざまなデータセットからのパッチがサンプリングされ、変換されて、このスケール不変の生成モデルのトレーニングが監視されます。
広範な実験により、マルチソース データから共同学習したモデルは、全体的なデータセットから学習したモデルよりも優れた品質を達成できることが実証されました。

要約(オリジナル)

Human generation has achieved significant progress. Nonetheless, existing methods still struggle to synthesize specific regions such as faces and hands. We argue that the main reason is rooted in the training data. A holistic human dataset inevitably has insufficient and low-resolution information on local parts. Therefore, we propose to use multi-source datasets with various resolution images to jointly learn a high-resolution human generative model. However, multi-source data inherently a) contains different parts that do not spatially align into a coherent human, and b) comes with different scales. To tackle these challenges, we propose an end-to-end framework, UnitedHuman, that empowers continuous GAN with the ability to effectively utilize multi-source data for high-resolution human generation. Specifically, 1) we design a Multi-Source Spatial Transformer that spatially aligns multi-source images to full-body space with a human parametric model. 2) Next, a continuous GAN is proposed with global-structural guidance and CutMix consistency. Patches from different datasets are then sampled and transformed to supervise the training of this scale-invariant generative model. Extensive experiments demonstrate that our model jointly learned from multi-source data achieves superior quality than those learned from a holistic dataset.

arxiv情報

著者 Jianglin Fu,Shikai Li,Yuming Jiang,Kwan-Yee Lin,Wayne Wu,Ziwei Liu
発行日 2023-09-25 17:58:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク