Diffusion-HPC: Generating Synthetic Images with Realistic Humans

要約

最近のテキストから画像への生成モデルは、忠実度の高いフォトリアリスティックな画像を生成する際に優れた能力を発揮しています。
ただし、視覚的に印象的な結果にもかかわらず、これらのモデルは、世代間でもっともらしい人間の構造を維持するのに苦労することがよくあります。
この理由により、生成モデルは、大量の合成データを生成することにより、下流の画像認識タスクを支援する有望な結果を示していますが、下流の人間の姿勢の認識と理解を改善するには依然として実行不可能です。
この作業では、人体構造に関する事前知識を注入することにより、もっともらしいポーズをとった人間を含むフォトリアリスティックな画像を生成する、テキスト調整された方法である人間の姿勢補正を使用した拡散モデル (拡散 HPC) を提案します。
拡散 HPC が人間の世代のリアリズムを効果的に改善することを示します。
さらに、生成にはグラウンド トゥルースとして機能する 3D メッシュが付随するため、Diffusion HPC で生成された画像メッシュ ペアは、3D トレーニング データの不足が長い間問題となっていたダウンストリームのヒューマン メッシュ リカバリ タスクに適しています。

要約(オリジナル)

Recent text-to-image generative models have exhibited remarkable abilities in generating high-fidelity and photo-realistic images. However, despite the visually impressive results, these models often struggle to preserve plausible human structure in the generations. Due to this reason, while generative models have shown promising results in aiding downstream image recognition tasks by generating large volumes of synthetic data, they remain infeasible for improving downstream human pose perception and understanding. In this work, we propose Diffusion model with Human Pose Correction (Diffusion HPC), a text-conditioned method that generates photo-realistic images with plausible posed humans by injecting prior knowledge about human body structure. We show that Diffusion HPC effectively improves the realism of human generations. Furthermore, as the generations are accompanied by 3D meshes that serve as ground truths, Diffusion HPC’s generated image-mesh pairs are well-suited for downstream human mesh recovery task, where a shortage of 3D training data has long been an issue.

arxiv情報

著者 Zhenzhen Weng,Laura Bravo-Sánchez,Serena Yeung
発行日 2023-03-16 17:53:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク