HumanRefiner: Benchmarking Abnormal Human Generation and Refining with Coarse-to-fine Pose-Reversible Guidance

要約

テキストから画像への拡散モデルは、条件付き画像生成において大幅に進歩しました。
ただし、これらのモデルは通常、人間をフィーチャーした画像を正確にレンダリングするのに苦労し、手足の歪みやその他の異常が発生します。
この問題は主に、拡散モデルにおける四肢の品質の認識と評価が不十分であることに起因しています。
この問題に対処するために、解剖学的異常に焦点を当てた初の大規模合成ヒトベンチマークである AbHuman を紹介します。
このベンチマークは、56,000 枚の合成人間画像で構成されており、各画像には、18 の異なるカテゴリで 147,000 個の人間の異常を識別する詳細な境界ボックス レベルのラベルが注釈付けされています。
これに基づいて、人間の異常の認識を確立することができ、これにより、否定的な促しや誘導などの従来の技術を通じて画像生成が強化されます。
改善をさらに促進するために、テキストから画像への生成において人間の異常を粗いものから細かいものまで洗練するための新しいプラグアンドプレイ アプローチである HumanRefiner を提案します。
具体的には、HumanRefiner は自己診断手順を利用して、人間の粗粒度の異常なポーズと粒度の細かい異常レベルの両方に関連する問題を検出して修正し、ポーズ可逆拡散の生成を容易にします。
AbHuman ベンチマークの実験結果では、HumanRefiner が生成の不一致を大幅に低減し、最先端のオープンソース ジェネレーター SDXL と比較して四肢の品質が 2.9 倍向上し、人間の評価では DALL-E 3 と比較して 1.4 倍の向上を達成したことが実証されています。

データとコードは https://github.com/Enderfga/HumanRefiner で入手できます。

要約(オリジナル)

Text-to-image diffusion models have significantly advanced in conditional image generation. However, these models usually struggle with accurately rendering images featuring humans, resulting in distorted limbs and other anomalies. This issue primarily stems from the insufficient recognition and evaluation of limb qualities in diffusion models. To address this issue, we introduce AbHuman, the first large-scale synthesized human benchmark focusing on anatomical anomalies. This benchmark consists of 56K synthesized human images, each annotated with detailed, bounding-box level labels identifying 147K human anomalies in 18 different categories. Based on this, the recognition of human anomalies can be established, which in turn enhances image generation through traditional techniques such as negative prompting and guidance. To further boost the improvement, we propose HumanRefiner, a novel plug-and-play approach for the coarse-to-fine refinement of human anomalies in text-to-image generation. Specifically, HumanRefiner utilizes a self-diagnostic procedure to detect and correct issues related to both coarse-grained abnormal human poses and fine-grained anomaly levels, facilitating pose-reversible diffusion generation. Experimental results on the AbHuman benchmark demonstrate that HumanRefiner significantly reduces generative discrepancies, achieving a 2.9x improvement in limb quality compared to the state-of-the-art open-source generator SDXL and a 1.4x improvement over DALL-E 3 in human evaluations. Our data and code are available at https://github.com/Enderfga/HumanRefiner.

arxiv情報

著者 Guian Fang,Wenbiao Yan,Yuanfan Guo,Jianhua Han,Zutao Jiang,Hang Xu,Shengcai Liao,Xiaodan Liang
発行日 2024-07-09 15:14:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク