要約
拡散モデルを使用した最近の手法では、ポーズ プリアなどのさまざまな制御信号を使用した人物画像の生成が大幅に進歩しました。
しかし、既存の取り組みでは、一貫したポーズの位置合わせを備えた高品質の画像を生成するのに依然として苦労しており、満足のいく出力が得られません。
この論文では、人間の画像生成のための制御情報を提供するために、姿勢事前分布のグラフ関係を詳しく調べるフレームワークを提案します。
主なアイデアは、ポーズの事前分布と拡散モデルの潜在表現の間にグラフ トポロジー構造を確立して、異なるポーズの部分間の固有の関連性を捉えることです。
プログレッシブ グラフ インテグレーター (PGI) は、事前ポーズとグラフ構造の空間的関係を学習するように設計されており、アダプター内で階層戦略を採用して、さまざまなポーズ部分に情報を段階的に伝播します。
さらに、姿勢認識損失は、姿勢の違いを最小限に抑えるために、事前トレーニングされた姿勢推定ネットワークに基づいて導入されます。
Human-Art および LAION-Human データセットに対して行われた広範な定性的および定量的実験により、私たちのモデルが最新のベンチマーク モデルと比較して大幅なパフォーマンス向上を達成できることが明確に実証されました。
コードは \url{https://xiangchenyin.github.io/GRPose/} で入手できます。
要約(オリジナル)
Recent methods using diffusion models have made significant progress in human image generation with various control signals such as pose priors. However, existing efforts are still struggling to generate high-quality images with consistent pose alignment, resulting in unsatisfactory output. In this paper, we propose a framework that delves into the graph relations of pose priors to provide control information for human image generation. The main idea is to establish a graph topological structure between the pose priors and latent representation of diffusion models to capture the intrinsic associations between different pose parts. A Progressive Graph Integrator (PGI) is designed to learn the spatial relationships of the pose priors with the graph structure, adopting a hierarchical strategy within an Adapter to gradually propagate information across different pose parts. Besides, a pose perception loss is introduced based on a pretrained pose estimation network to minimize the pose differences. Extensive qualitative and quantitative experiments conducted on the Human-Art and LAION-Human datasets clearly demonstrate that our model can achieve significant performance improvement over the latest benchmark models. The code is available at \url{https://xiangchenyin.github.io/GRPose/}.
arxiv情報
著者 | Xiangchen Yin,Donglin Di,Lei Fan,Hao Li,Wei Chen,Xiaofei Gou,Yang Song,Xiao Sun,Xun Yang |
発行日 | 2024-12-27 09:27:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google