AvatarGO: Zero-shot 4D Human-Object Interaction Generation and Animation

要約

拡散モデルの最近の進歩により、4D 全身ヒューマン オブジェクト インタラクション (HOI) の生成とアニメーションが大幅に改善されました。
それにもかかわらず、既存の方法は主に SMPL ベースのモーション生成に焦点を当てており、現実的な大規模インタラクション データの不足によって制限されています。
この制約は、日常の HOI シーンを作成する能力に影響します。
このペーパーでは、事前トレーニングされた拡散モデルを使用したゼロショット アプローチを使用して、この課題に取り組みます。
この可能性にもかかわらず、拡散モデルには物体が「どこで」「どのように」人体と相互作用するかが理解されていないため、目標を達成することは困難です。
これらの問題に取り組むために、テキスト入力から直接アニメーション化可能な 4D HOI シーンを生成するように設計された新しいフレームワークである AvatarGO を紹介します。
具体的には、1) 「どこ」の課題に対して、LLM ガイドによる接触リターゲティングを提案します。これは、Lang-SAM を使用してテキスト プロンプトから接触体の部分を特定し、人間と物体の空間関係の正確な表現を保証します。
2) 「どのように」という課題については、SMPL-X の線形ブレンド スキニング関数を使用して、人間とオブジェクトの両方のモデルのモーション フィールドを構築する、対応を意識したモーションの最適化を導入します。
私たちのフレームワークは、一貫した構成モーションを生成するだけでなく、貫通問題の処理において優れた堅牢性も示します。
既存の手法を用いた広範な実験により、さまざまな人間とオブジェクトのペアや多様なポーズに対する AvatarGO の優れた生成およびアニメーション機能が検証されました。
オブジェクトのインタラクションを使用して 4D アバターを合成する最初の試みとして、AvatarGO が人間中心の 4D コンテンツ作成の新たな扉を開くことができることを期待しています。

要約(オリジナル)

Recent advancements in diffusion models have led to significant improvements in the generation and animation of 4D full-body human-object interactions (HOI). Nevertheless, existing methods primarily focus on SMPL-based motion generation, which is limited by the scarcity of realistic large-scale interaction data. This constraint affects their ability to create everyday HOI scenes. This paper addresses this challenge using a zero-shot approach with a pre-trained diffusion model. Despite this potential, achieving our goals is difficult due to the diffusion model’s lack of understanding of ”where” and ”how” objects interact with the human body. To tackle these issues, we introduce AvatarGO, a novel framework designed to generate animatable 4D HOI scenes directly from textual inputs. Specifically, 1) for the ”where” challenge, we propose LLM-guided contact retargeting, which employs Lang-SAM to identify the contact body part from text prompts, ensuring precise representation of human-object spatial relations. 2) For the ”how” challenge, we introduce correspondence-aware motion optimization that constructs motion fields for both human and object models using the linear blend skinning function from SMPL-X. Our framework not only generates coherent compositional motions, but also exhibits greater robustness in handling penetration issues. Extensive experiments with existing methods validate AvatarGO’s superior generation and animation capabilities on a variety of human-object pairs and diverse poses. As the first attempt to synthesize 4D avatars with object interactions, we hope AvatarGO could open new doors for human-centric 4D content creation.

arxiv情報

著者 Yukang Cao,Liang Pan,Kai Han,Kwan-Yee K. Wong,Ziwei Liu
発行日 2024-10-09 17:58:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク