要約
GAN や拡散モデルなどの生成モデルは、優れた画像生成機能を実証しています。
これらの成功にもかかわらず、これらのシステムは手で画像を作成するのが驚くほど苦手です。
我々は、このようなシステムの手の画像を作成する能力を大幅に向上させる、生成モデル用の新しいトレーニング フレームワークを提案します。
私たちのアプローチは、画像内の手に注釈を提供する 3 つの追加チャネルでトレーニング画像を拡張することです。
これらの注釈は、生成モデルを誘導してより高品質の手の画像を生成する追加の構造を提供します。
このアプローチを、敵対的生成ネットワークと拡散モデルという 2 つの異なる生成モデルで実証します。
私たちは、手の画像の新しい合成データセットと手を含む実際の写真の両方でこの方法を実証します。
既製の手検出器を使用した指関節識別の信頼性の向上により、生成された手の品質の向上を測定します。
要約(オリジナル)
Generative models such as GANs and diffusion models have demonstrated impressive image generation capabilities. Despite these successes, these systems are surprisingly poor at creating images with hands. We propose a novel training framework for generative models that substantially improves the ability of such systems to create hand images. Our approach is to augment the training images with three additional channels that provide annotations to hands in the image. These annotations provide additional structure that coax the generative model to produce higher quality hand images. We demonstrate this approach on two different generative models: a generative adversarial network and a diffusion model. We demonstrate our method both on a new synthetic dataset of hand images and also on real photographs that contain hands. We measure the improved quality of the generated hands through higher confidence in finger joint identification using an off-the-shelf hand detector.
arxiv情報
著者 | Yue Yang,Atith N Gandhi,Greg Turk |
発行日 | 2024-01-26 18:57:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google