要約
安定拡散などのテキストから画像への生成モデルは、多様で高品質の画像を生成する優れた能力を実証しています。
しかし、人間の手をレンダリングすることに関しては、驚くほど無能であり、解剖学的に不正確であるか、「不気味の谷」にあることがよくあります。
本稿では、このような変形した手を修復する手法HandCraftを提案する。
これは、パラメトリック モデルを使用してコンディショニング信号として手のマスクと深度画像を自動的に構築することで実現され、拡散ベースの画像エディターが手の解剖学的構造を修正し、ポーズを調整しながら、変更を元の画像にシームレスに統合し、ポーズや色を維持できるようになります。
、そしてスタイル。
当社のプラグアンドプレイの手復元ソリューションは、既存の事前トレーニング済み拡散モデルと互換性があり、復元プロセスでは拡散モデルの微調整やトレーニング要件を回避することで導入が容易になります。
また、手の検出器のトレーニングと手の復元ベンチマークのために、さまざまなスタイルでさまざまな奇形の手の生成された画像を含む MalHand データセットを提供し、定性的および定量的評価を通じて、HandCraft が解剖学的正確さを復元するだけでなく、全体的な整合性を維持することを実証します。
画像。
要約(オリジナル)
Generative text-to-image models, such as Stable Diffusion, have demonstrated a remarkable ability to generate diverse, high-quality images. However, they are surprisingly inept when it comes to rendering human hands, which are often anatomically incorrect or reside in the ‘uncanny valley’. In this paper, we propose a method HandCraft for restoring such malformed hands. This is achieved by automatically constructing masks and depth images for hands as conditioning signals using a parametric model, allowing a diffusion-based image editor to fix the hand’s anatomy and adjust its pose while seamlessly integrating the changes into the original image, preserving pose, color, and style. Our plug-and-play hand restoration solution is compatible with existing pretrained diffusion models, and the restoration process facilitates adoption by eschewing any fine-tuning or training requirements for the diffusion models. We also contribute MalHand datasets that contain generated images with a wide variety of malformed hands in several styles for hand detector training and hand restoration benchmarking, and demonstrate through qualitative and quantitative evaluation that HandCraft not only restores anatomical correctness but also maintains the integrity of the overall image.
arxiv情報
著者 | Zhenyue Qin,Yiqun Zhang,Yang Liu,Dylan Campbell |
発行日 | 2024-11-11 16:31:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google