要約
最近のテキストから画像への生成モデルは、高忠実度で写真のようにリアルな画像を生成する際に顕著な能力を示しています。
しかし、視覚的に印象的な結果にもかかわらず、これらのモデルは、人間の構造を何世代にもわたって妥当なものとして保存するのに苦労することがよくあります。
この理由により、生成モデルは大量の合成データを生成することで下流の画像認識タスクを支援する上では有望な結果を示していますが、下流の人間の姿勢の知覚と理解を向上させるには適していません。
この研究では、人体の構造に関する事前知識を注入することによって、もっともらしいポーズをとった人間を含むフォトリアリスティックな画像を生成するテキスト条件付き手法である、人間ポーズ補正付き拡散モデル (Diffusion-HPC) を提案します。
生成された画像には、3D トレーニング データの不足が長い間問題となっていたヒューマン メッシュ回復タスクを改善するためのグラウンド トゥルースとして機能する 3D メッシュが付属しています。
さらに、Diffusion-HPC がさまざまな条件付け戦略の下で人間の世代のリアリズムを効果的に改善することを示します。
要約(オリジナル)
Recent text-to-image generative models have exhibited remarkable abilities in generating high-fidelity and photo-realistic images. However, despite the visually impressive results, these models often struggle to preserve plausible human structure in the generations. Due to this reason, while generative models have shown promising results in aiding downstream image recognition tasks by generating large volumes of synthetic data, they are not suitable for improving downstream human pose perception and understanding. In this work, we propose a Diffusion model with Human Pose Correction (Diffusion-HPC), a text-conditioned method that generates photo-realistic images with plausible posed humans by injecting prior knowledge about human body structure. Our generated images are accompanied by 3D meshes that serve as ground truths for improving Human Mesh Recovery tasks, where a shortage of 3D training data has long been an issue. Furthermore, we show that Diffusion-HPC effectively improves the realism of human generations under varying conditioning strategies.
arxiv情報
著者 | Zhenzhen Weng,Laura Bravo-Sánchez,Serena Yeung-Levy |
発行日 | 2023-12-31 00:17:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google