AttentionHand: Text-driven Controllable Hand Image Generation for 3D Hand Reconstruction in the Wild

要約

最近、人間とコンピューターのさまざまな形式の対話を使用するための 3D 手の再構成に関する大量の研究が行われています。
ただし、野生の 3D 手のデータセットが極端に不足しているため、野生での 3D 手の再構成は困難です。
特に、手が相互作用するなど、手が複雑なポーズにある場合、外観の類似性、セルフハンド オクルージョン、奥行きのあいまいさなどの問題がさらに困難になります。
これらの問題を克服するために、我々は、テキスト駆動型の制御可能な手の画像生成のための新しい方法である tentionHand を提案します。
AttendanceHand は、3D ハンドラベルと適切に位置合わせされたさまざまな多数の野生の手画像を生成できるため、新しい 3D ハンドデータセットを取得でき、屋内と屋外のシーン間の領域ギャップを緩和できます。
私たちの方法には、使いやすい 4 つのモダリティ (つまり、RGB 画像、3D ラベルからのハンド メッシュ画像、バウンディング ボックス、およびテキスト プロンプト) が必要です。
これらのモダリティは、符号化フェーズによって潜在空間に埋め込まれます。
次に、テキスト アテンション ステージを通じて、指定されたテキスト プロンプトからの手関連トークンが注目され、潜在的な埋め込みの手関連領域が強調表示されます。
ハイライトされたエンベディングが視覚的注意ステージに送られた後、エンベディング内の手に関連した領域には、拡散ベースのパイプラインを使用してグローバルおよびローカルの手メッシュ画像が調整されます。
デコード段階では、最終的な特徴が新しい手の画像にデコードされ、指定されたハンド メッシュ画像およびテキスト プロンプトと適切に調整されます。
その結果、ActualHand はテキストからハンドへの画像生成モデルの中で最先端のモデルを達成し、また、AttendanceHand によって生成されたハンド画像を使用して追加トレーニングすることにより、3D ハンド メッシュ再構成のパフォーマンスが向上しました。

要約(オリジナル)

Recently, there has been a significant amount of research conducted on 3D hand reconstruction to use various forms of human-computer interaction. However, 3D hand reconstruction in the wild is challenging due to extreme lack of in-the-wild 3D hand datasets. Especially, when hands are in complex pose such as interacting hands, the problems like appearance similarity, self-handed occclusion and depth ambiguity make it more difficult. To overcome these issues, we propose AttentionHand, a novel method for text-driven controllable hand image generation. Since AttentionHand can generate various and numerous in-the-wild hand images well-aligned with 3D hand label, we can acquire a new 3D hand dataset, and can relieve the domain gap between indoor and outdoor scenes. Our method needs easy-to-use four modalities (i.e, an RGB image, a hand mesh image from 3D label, a bounding box, and a text prompt). These modalities are embedded into the latent space by the encoding phase. Then, through the text attention stage, hand-related tokens from the given text prompt are attended to highlight hand-related regions of the latent embedding. After the highlighted embedding is fed to the visual attention stage, hand-related regions in the embedding are attended by conditioning global and local hand mesh images with the diffusion-based pipeline. In the decoding phase, the final feature is decoded to new hand images, which are well-aligned with the given hand mesh image and text prompt. As a result, AttentionHand achieved state-of-the-art among text-to-hand image generation models, and the performance of 3D hand mesh reconstruction was improved by additionally training with hand images generated by AttentionHand.

arxiv情報

著者 Junho Park,Kyeongbo Kong,Suk-Ju Kang
発行日 2024-07-25 13:29:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク