GRPose: Learning Graph Relations for Human Image Generation with Pose Priors

要約

拡散モデルを使用する最近の方法では、ポーズ プリアなどのさまざまな追加制御により、人物画像の生成が大幅に進歩しました。
しかし、既存のアプローチでは、一貫したポーズの位置合わせを備えた高品質の画像を生成することが依然として困難であり、満足のいく出力が得られません。
この論文では、人間の画像生成のための制御情報を提供するために、姿勢事前分布のグラフ関係を掘り下げるフレームワークを提案します。
主なアイデアは、ポーズの事前分布と拡散モデルの潜在表現の間にグラフ トポロジー構造を確立して、異なるポーズの部分間の固有の関連性を捉えることです。
プログレッシブ グラフ インテグレーター (PGI) は、事前ポーズとグラフ構造の空間的関係を学習するように設計されており、アダプター内で階層戦略を採用して、さまざまなポーズ部分に情報を段階的に伝播します。
さらに、事前トレーニングされた姿勢推定ネットワークに基づいて姿勢知覚損失が導入され、姿勢の違いが最小限に抑えられます。
Human-Art および LAION-Human データセットに対して行われた広範な定性的および定量的実験により、私たちのモデルが最新のベンチマーク モデルと比較してポーズ平均精度が 9.98% 向上し、優れたパフォーマンスを達成していることが実証されました。
コードは ******* にリリースされます。

要約(オリジナル)

Recent methods using diffusion models have made significant progress in human image generation with various additional controls such as pose priors. However, existing approaches still struggle to generate high-quality images with consistent pose alignment, resulting in unsatisfactory outputs. In this paper, we propose a framework delving into the graph relations of pose priors to provide control information for human image generation. The main idea is to establish a graph topological structure between the pose priors and latent representation of diffusion models to capture the intrinsic associations between different pose parts. A Progressive Graph Integrator (PGI) is designed to learn the spatial relationships of the pose priors with the graph structure, adopting a hierarchical strategy within an Adapter to gradually propagate information across different pose parts. A pose perception loss is further introduced based on a pretrained pose estimation network to minimize the pose differences. Extensive qualitative and quantitative experiments conducted on the Human-Art and LAION-Human datasets demonstrate that our model achieves superior performance, with a 9.98% increase in pose average precision compared to the latest benchmark model. The code is released on *******.

arxiv情報

著者 Xiangchen Yin,Donglin Di,Lei Fan,Hao Li,Chen Wei,Xiaofei Gou,Yang Song,Xiao Sun,Xun Yang
発行日 2024-08-29 13:58:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク