要約
近年、拡散モデルはビジュアル生成に革命をもたらし、敵対的生成ネットワーク (GAN) などの従来のフレームワークを上回りました。
ただし、手や顔などの現実的な意味部分を備えた人間の画像を生成することは、複雑な構造のため依然として大きな課題です。
この問題に対処するために、RealisHuman という名前の新しい後処理ソリューションを提案します。
RealisHuman フレームワークは 2 つの段階で動作します。
まず、元の変形したパーツを参照として使用して、手や顔などのリアルな人間のパーツを生成し、元の画像と細部の一貫性を確保します。
次に、周囲の領域を再ペイントして、修正された人間のパーツを対応する位置にシームレスに統合して、スムーズでリアルなブレンドを保証します。
RealisHuman フレームワークは、定性的および定量的メトリクスの両方で顕著な改善が見られるように、人間の生成のリアリズムを大幅に強化します。
コードは https://github.com/Wangbenzhi/RealisHuman で入手できます。
要約(オリジナル)
In recent years, diffusion models have revolutionized visual generation, outperforming traditional frameworks like Generative Adversarial Networks (GANs). However, generating images of humans with realistic semantic parts, such as hands and faces, remains a significant challenge due to their intricate structural complexity. To address this issue, we propose a novel post-processing solution named RealisHuman. The RealisHuman framework operates in two stages. First, it generates realistic human parts, such as hands or faces, using the original malformed parts as references, ensuring consistent details with the original image. Second, it seamlessly integrates the rectified human parts back into their corresponding positions by repainting the surrounding areas to ensure smooth and realistic blending. The RealisHuman framework significantly enhances the realism of human generation, as demonstrated by notable improvements in both qualitative and quantitative metrics. Code is available at https://github.com/Wangbenzhi/RealisHuman.
arxiv情報
著者 | Benzhi Wang,Jingkai Zhou,Jingqi Bai,Yang Yang,Weihua Chen,Fan Wang,Zhen Lei |
発行日 | 2024-09-05 16:02:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google