要約
画像生成モデルの目覚ましい進歩にもかかわらず、リアルな手の生成は、その複雑な関節、様々な視点、頻繁なオクルージョンのために、依然として根強い課題である。我々は、シングルハンドとデュアルハンドの画像を合成するための大規模なドメイン固有の拡散モデルであるFoundHandを紹介する。我々のモデルを学習するために、2Dキーポイントとセグメンテーションマスクのアノテーションを持つ大規模な手のデータセットであるFoundHand-10Mを導入する。我々の洞察は、手の関節とカメラの視点の両方を符号化する普遍的な表現として2Dハンドキーポイントを使用することである。FoundHandは画像ペアから学習し、物理的にもっともらしい手の関節をキャプチャし、ネイティブに2Dキーポイントによる精密な制御を可能にし、外観制御をサポートします。私たちのモデルは、手のポーズ、手の外観の転送、さらには新しいビューの合成を含むコア機能を示しています。これは、以前に生成された画像内の変形した手を修正したり、手のビデオシーケンスを合成したりするためのゼロショット機能につながる。我々の手法の最先端の性能を実証する広範な実験と評価を紹介する。
要約(オリジナル)
Despite remarkable progress in image generation models, generating realistic hands remains a persistent challenge due to their complex articulation, varying viewpoints, and frequent occlusions. We present FoundHand, a large-scale domain-specific diffusion model for synthesizing single and dual hand images. To train our model, we introduce FoundHand-10M, a large-scale hand dataset with 2D keypoints and segmentation mask annotations. Our insight is to use 2D hand keypoints as a universal representation that encodes both hand articulation and camera viewpoint. FoundHand learns from image pairs to capture physically plausible hand articulations, natively enables precise control through 2D keypoints, and supports appearance control. Our model exhibits core capabilities that include the ability to repose hands, transfer hand appearance, and even synthesize novel views. This leads to zero-shot capabilities for fixing malformed hands in previously generated images, or synthesizing hand video sequences. We present extensive experiments and evaluations that demonstrate state-of-the-art performance of our method.
arxiv情報
著者 | Kefan Chen,Chaerin Min,Linguang Zhang,Shreyas Hampali,Cem Keskin,Srinath Sridhar |
発行日 | 2024-12-03 18:58:19+00:00 |
arxivサイト | arxiv_id(pdf) |